Бесплатный автореферат и диссертация по биологии на тему
Выявление взаимосвязанных белков методами анализа геномов
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Выявление взаимосвязанных белков методами анализа геномов"

На правах рукописи

□03478670

ПЯТНИЦКИЙ Михаил Алексеевич

ВЫЯВЛЕНИЕ ВЗАИМОСВЯЗАННЫХ БЕЛКОВ МЕТОДАМИ АНАЛИЗА ГЕНОМОВ

03.00.28 - биоинформатика

- 1 ОКТ 2

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Москва - 2009 г.

003478670

Работа выполнена в Учреждении Российской академии медицинских наук Научно-исследовательском институте биомедицинской химии имени В.Н.Ореховича РАМН

Научный руководитель:

доктор биологических наук Лисица Андрей Валерьевич

Официальные оппоненты:

доктор биологических наук, профессор Короткое Евгений Вадимович

кандидат биологических наук Артамонова Ирена Игоревна

Ведущая организация: Учреждение Российской академии наук Институт проблем передачи информации имени А. А. Харкевича РАН

Защита состоится «22» октября 2009 года в 14:30 на заседании Диссертационного совета Д 001.010.01 при Учреждении Российской академии медицинских наук Научно-исследовательском институте биомедицинской химии имени В.Н.Ореховича РАМН по адресу: 119121, г. Москва, Погодинская ул., д.Ю.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии медицинских наук Научно-исследовательского института биомедицинской химии им. В.Н.Ореховича РАМН.

Автореферат разослан «_» сентября 2009 г.

Ученый секретарь Диссертационного совета,

кандидат химических наук

Е.А. Карпова

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ 1.1. Актуальность проблемы

Одной из важнейших задач современной биологии является выявление белков, которые либо физически взаимодействуют между собой (например, являются субъединицами белкового комплекса), либо взаимосвязаны функционально (участвуют в одних и тех же метаболических или регуляторных путях). Подобного рода анализ позволит идентифицировать белок-белковые взаимодействия, отвечающие за различные клеточные процессы, а также выявить возможные пути развития патологических состояний на молекулярном уровне.

Исследование взаимосвязанных белков в настоящее время особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию (Mushegian, 2007). В настоящее время данные о первичной структуре большинства белков получают путем трансляции соответствующих генов in silico, вместо непосредственного определения последовательности аминокислот.

Уже накоплены сведения о последовательностях геномов более тысячи организмов. При этом широко употребляющийся термин "расшифровка генома" не отражает реальность, поскольку знание последовательности ДНК само по себе не несет в явном виде информации о роли этого гена и кодируемого им белка в функционировании клетки. Для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов - это хорошо отработанная технология. Поэтому основной проблемой, стоящей перед постгеномной биоинформатикой, можно считать наиболее рациональное использование имеющегося массива данных о секвенированных геномах для предсказания функций белков и выявления взаимосвязей между белками, обеспечивающих ключевые клеточные процессы.

Для решения указанной проблемы разработаны вычислительные методы, позволяющие предсказывать функции белков и взаимосвязи между ними. В дополнение к традиционному прогнозированию функции белка на основе гомологии, в последнее время добавились методы, опирающиеся на данные сравнительной геномики. Для поиска взаимосвязей между белками используются контекстные свойства генов - распределение гомологов в ряду организмов (Pellegrini et al., 1999), положение и относительный порядок следования генов на хромосоме (Overbeek et al., 1999), частота слияний генов (Marcotte and Marcotte, 2002). Такого рода методы называют контекстно-ориентированными, поскольку используемые свойства генов

имеют смысл лишь при одновременном их сравнительном исследовании в ряду геномов, то есть в определенном контексте. Анализ контекстных свойств гена показывает, что отдельный геном и их совокупность представляют собой особый тип данных, который нельзя сводить к простому сочетанию последовательностей ДНК (Koonin and Galperin, 2003).

Для предсказания групп взаимосвязанных белков в настоящей работе использовали метод филогенетических профилей, согласно которому функционально взаимосвязанные белки также связаны и эволюционно (Kensche et al., 2008). Предполагается, что гены, кодирующие взаимодействующие белки являются ко-эволюционирующими: либо совместно наследуются вновь образованным видом, либо элиминируются естественным отбором. Каждый белок изучаемого организма характеризуется бинарным вектором (филогенетическим профилем, ФП), определяющим присутствие гомолога гена, кодирующего данный белок, в ряду других геномов, называемых референтными. При наличии достаточного количества референтных геномов, каждая пара взаимосвязанных белков в рамках структурного комплекса, регуляторного или метаболического пути будет иметь схожие ФП.

В большинстве работ метод ФП используется для предсказания взаимосвязей между парами белков, то есть кластерный анализ ФП не применяется. В нашей работе использовали более общий подход, ориентированный на поиск групп взаимосвязанных белков. При этом для оптимизации метода ФП использовали данные о белках E.coli К12 как наиболее изученного модельного микроорганизма, а применение отработанной методики проводили для M.tuberculosis H37Rv в связи с большой социальной и медицинской значимостью туберкулезной микобактерии.

Целью работы явилось выявление групп взаимосвязанных белков E.coliК12 и M.tuberculosis H37Rv путем сравнения соответствующих филогенетических профилей, отражающих закономерности наследования генов в ряду прокариотических организмов.

Для достижения поставленной цели решались следующие задачи:

1. Определить численные критерии для оценки соответствия состава предсказанных групп взаимосвязанных белков и метаболических путей БД KEGG.

2. Исследовать степень соответствия между кластеризацией ФП белков E.coli К/2 н распределением белков по разделам БД KEGG в зависимости от набора референтных геномов, метода кластерного анализа и способа расчета различий между ФП. Предсказать группы взаимосвязанных белков E.coli К12, используя найденные оптимальные параметры метода ФП.

3. Оценить количество групп взаимосвязанных белков M.tuberculosis H37Rv, используя данные о ФП белков. Предсказать группы взаимосвязанных белков M.tuberculosis H37Rv путем кластеризации ФП на оцененное число групп.

4. Выявить дополнительные группы белков M.tuberculosis H37Rv, взаимосвязи внутри которых определяются наличием устойчивых логических отношений между ФП.

1.2. Научная новизна и практическая значимость

Новизна данной работы по сравнению с аналогичными подходами с применением кластеризации ФП (Glazko and Mushegian, 2004; Yamada et al., 2006) заключается в том, что для изучения алгоритмов предсказания групп взаимосвязанных белков использован математический аппарат для сравнения разбиения белков на группы как результата кластерного анализа ФП, и "эталонного" распределения белков по метаболическим путям БД KEGG. Получаемые значения степени соответствия этих двух разбиений, оцененные с помощью т.н. внешних индексов, позволяют проводить сравнительный анализ влияния различных параметров метода ФП на состав выявляемых групп белков. Этими параметрами являются: набор референтных геномов, метод кластеризации и мера расстояния между ФП. Изучая зависимость значений внешних индексов для различных значений этих параметров, в работе определили набор референтных геномов и комбинацию кластеризация/расстояние, которые обеспечивали максимальную точность работы метода ФП, с точки зрения соответствия состава метаболических путей БД KEGG. и предсказанных групп взаимосвязанных белков.

Практическое применение разработанного подхода иллюстрируется на примере предсказания взаимосвязанных групп белков E.coli К12 и M.tuberculosis Н37 Rv. Показано, что найденные кластеры белков соответствуют как физическим взаимодействиям между белками (например, субъединицам NADH-дегидрогеназы), так и функционально взаимосвязанным белкам (например, белкам, участвующим в формировании жгутиков). При этом количество групп взаимосвязанных белков M.tuberculosis оценивали с помощью т.н. внутренних индексов, опираясь исключительно на данные о ФП белков без привлечения какой-либо дополнительной информации (например, БД KEGG).

В работе впервые применен математический аппарат логической регрессии (Ruczinski et al., 2003) для анализа данных о ФП. Суть этого подхода состоит в поиске логических закономерностей среди ФП, когда присутствие в геноме одного гена может быть предсказано, используя наличие или отсутствие в геноме некоторого

набора других генов (предикторов). Тем самым, могут быть выявлены дополнительные взаимосвязи между белками, кодируемыми соответствующими генами. Использование аппарата логической регрессии для поиска взаимосвязей между белками, является обобщением и развитием метода логического анализа ФП, предложенного в работе (Bowers et al., 2004).

Метод логической регрессии применялся для анализа данных о ФП белков M.tuberculosis. Показано, что получаемые таким образом группы логически ассоциированных между собой белков имеют биологический смысл и позволяют выдвигать новые гипотезы о взаимосвязях между белками в клетке. При этом предсказанные взаимосвязи принципиально отличаются от тех, которые могли быть получены при кластерном анализе ФП.

1.3. Апробация работы

Основные положения диссертационной работы докладывались и обсуждались в ходе следующих конференций: "Международный конгресс «Протеом человека», Лонг Бич, США, 2006", "Международный конгресс «Протеом человека», Сеул, Корея, 2007", "XV Российский национальный конгресс «Человек и Лекарство», Москва, 2008", "IV Международная конференция «Геномика, протеомика, биоинформатика и нанобиотехнологии для медицины», Москва, 2008", "Международная конференция по биоинформатике регуляции и структуры генома, Новосибирск, 2008", "Московская конференция по вычислительной молекулярной биологии, Москва, 2009".

1.4. Основные положения, выносимые на защиту

1. Расчет внешних индексов позволяет оптимизировать параметры метода ФП, а также сопоставлять метаболические пути БД KEGG и найденные кластеры взаимосвязанных белков.

2. Наилучшее соответствие состава найденных кластеров взаимосвязанных белков E.coli KI2 и метаболических путей KEGG достигается при использовании набора из 150 референтных геномов, кластеризации методом РАМ и использовании взаимной информации в качестве меры расстояния между ФП.

3. Внутренние индексы можно использовать для предсказания количества групп взаимосвязанных белков. Кластеризация ФП на определенное таким образом количество групп, позволяет предсказать как физические взаимодействия, так и функциональные взаимосвязи между белками.

4. Применение логической регрессии для данных о ФП белков позволяет предсказывать взаимосвязи между белками, отличающиеся от тех которые обнаруживаются кластерным анализом.

1.5. Публикации

Материалы диссертационной работы отражены в 12 публикациях: в 3 статьях в журналах, входящих в список ВАК, и 9 материалах научных конференций.

1.6. Объем и структура диссертации

Диссертация изложена на 119 страницах машинописного текста, включая 26 рисунков и 3 таблицы. Состоит из глав: «Введение», «Обзор литературы», «Материалы и методы», «Результаты и обсуждение», «Заключение», «Выводы», «Список литературы», «Приложение».

2. МАТЕРИАЛЫ И МЕТОДЫ ИССЛЕДОВАНИЯ

Филогенетические профили для белков E.coli К12 и M.tuberculosis H37Rv загрузили из БД KEGG, раздел Orthology [http://www.genome.jp/kegg/ko.html]. Матрица ФП для E.coli состояла из 1184 строк (соответствовавших ФП каждого белка) и 588 столбцов (референтных геномов). Для каждого белка присутствие/отсутствие ортолога в каждом референтном организме кодировалось единицей или нулем соответственно. Аналогичная матрица ФП для M.tuberculosis состояла из 1770 строк и 588 столбцов.

Информацию о метаболических путях для E.coli Kl2 загружали из БД KEGG. Для описания принадлежности /-го белка к j-ощ метаболическому пути использовали представление в виде матрицы принадлежности М, т0 = nj/N:, где - количество

белков в j-ом метаболическом пути, а N, - суммарное количество белков во всех остальных путях, к которым принадлежит i-ый белок. Считали, что каждый из 124 метаболических путей E.coli К12 представляет собой группу взаимосвязанных белков.

Предсказание групп взаимосвязанных белков осуществляли посредством кластерного анализа матриц ФП, полученных для белков E.coli и M.tuberculosis. Использовали несколько различных мер расстояний и методов кластерного анализа. Среди мер расстояния использовали: расстояния Хэмминга, Жаккара, Кульчинского; вероятность случайного совпадения ненулевых элементов ФП; взаимную информацию. Использовали иерархические и итеративные методы кластерного анализа. Среди первой группы использовали аггломеративные методы (методы ближней, средней и полной связей, метод Уорда) и дивизивный метод (метод DIANA). Результатом работы иерархических методов являлась последовательность объединения белков в кластеры для различных уровней сходства соответствующих ФП (дендрограмма). В качестве итеративного метода кластерного анализа

использовали метод РАМ, результатом применения которого являлся непосредственный состав кластеров взаимосвязанных белков.

Сравнение кластеризации белков. После кластерного анализа данных о ФП белков проводили оценку, насколько адекватным являлось полученное разбиение белков на группы. В соответствии с особенностями задачи рассматривали две ситуации. Если a priori было известно "корректное" распределение белков по разделам (метаболическим путям) БД KEGG, то для оценки степени соответствия полученной кластеризации этому "корректному" распределению применяли внешние индексы оценки кластеризации: расстояние между матрицами принадлежности и индекс Рэнда. Если же "истинное" распределение белков на группы считали неизвестным, то использовали внутренние индексы, оценивающие только структуру полученной кластеризации белков.

Расстояние между матрицами принадлежности использовали в качестве меры соответствия составов полученной кластеризации белков и метаболических путей KEGG. Информацию об отнесении белков к метаболическим путям KEGG описывали матрицей принадлежности М,, а группирование белков, полученное в результате кластерного анализа ФП, описывали матрицей принадлежности М2. Перемешивание идентификаторов кластеров не изменяет разбиение белков, что эквивалентно перестановке столбцов матрицы принадлежности М2. Расстояние между матрицами принадлежности М, и М, определяли как минимальное расстояние с учетом всех возможных перестановок столбцов М2, т.е. выполнялось:

rf(M1,M2) = minp||Ml-M2P|| (1)

Минимизацию проводили по всем матрицам-перестановкам1 Р. Согласно (Hornik, 2005) получили, что минимизация (1) эквивалентна максимизации /г(М,'М21') = Х,/"ь*иг2,,,((■] • Нахождение оптимальной матрицы-перестановки Р,

обеспечивающей оптимальное соответствие друг другу метаболических путей KEGG и кластеризации матрицы ФП, рассматривали как вариант задачи о назначениях, которую точно решали методом линейного программирования. Меньшие значения расстояния между указанными матрицами принадлежности означали лучшее соответствие состава групп белков, получаемых при кластеризации ФП, и метаболических путей KEGG.

1 Матрица перестановки - квадратная бинарная матрица, в каждой строке и столбце которой находится лишь один единичный элемент. Матрица перестановки размера и х и является матричным представлением перестановки порядка и, т.е. может быть использована для описания перестановки столбцов

6

Индекс Рэнда согласно (Сап й а1., 2007) использовали для сравнения двух разбиений О] и 02, где в, - группирование белков в соответствии с метаболическими путями КЕОС, а С2 - группирование белков, полученное при кластеризации матрицы ФП. Индекс Рэнда отличается от расстояния между матрицами принадлежности, поскольку использует фиксированные разбиения (белок принадлежит только к одной группе), тогда как матрица принадлежности может описывать нечеткие разбиения (белок принадлежит к нескольким метаболическим путям).

Для каждой пары белков х, и * . был возможен один из четырех вариантов:

а) х1 и х) находились в одной группе в в! и в 02.

б) х, и х/ находились в разных группах в в! и в С2.

в) х, и х1 находились в одной группе в Оь но в разных группах в 02.

г) Х1 и х/. находились в одной группе в С2, но в разных группах в С^

Количество случаев, соответствующих приведенным пунктам, обозначили как

а, Ь, с, с1 соответственно. Рассчитывали модифицированный индекс Рэнда:

_2 {аЬ-Ы)__(2)

~ ((а + с1)(с1 + Ь) + {а + с)(с + Ь))

Значения индекса Рэнда находились в диапазоне от 0 до 1, причем большие значения означали лучшее соответствие состава кластеров, получаемых при кластеризации ФП, метаболическим путям КРХЮ.

Внутренние индексы: индекс Дэвиса-Болдуина, индекс "ширина силуэта", индекс Дана, Г-статистику Хьюберта, отношение среднего внутрикластерного расстояния к среднему междукластерному, вычисляли согласно работе (вап е! а1., 2007).

Оценку оптимального количества кластеров проводили с помощью Ь-метода. Искали точку перегиба зависимости внутреннего индекса от количества кластеров, на которое проводилось разбиение. Производили подбор двух линейных регрессий для оптимальной аппроксимации этой зависимости в смысле минимизации суммы квадратов отклонений. Поиск наилучшей точки разделения двух линейных регрессий проводили методом динамического программирования. Оптимальное количество кластеров определяли как абсциссу точки пересечения указанных регрессий. Наилучшая аппроксимация зависимости внутреннего индекса от числа кластеров двумя прямыми с нулевой суммарной ошибкой показана на рисунке 1-в. Пример определения оптимального числа кластеров показан на рисунке 1-д.

Рисунок 1. а-г) Принцип работы Ь-метода. Поиск оптимальной аппроксимации зависимости внутреннего индекса от количества кластеров двумя прямыми с наименьшей возможной ошибкой. Абсцисса - количество кластеров, ордината — значения любого внутреннего индекса для разбиения на соответствующее количество кластеров, д) Пример определения оптимального количества кластеров с помощью Ь-метода - абсцисса точки пересечения двух найденных линейных регрессий

Логическую регрессию (Ruczinski et al., 2003) применяли для поиска логических закономерностей в ФП. Логическая регрессия решает задачу предсказания значений целевого ФП (зависимой переменной) как логическую комбинацию других ФП-предикторов.

Для поиска оптимальной логической комбинации предикторов искомое логическое выражение представляли в виде двоичного дерева. Узлами дерева являются логические операции AND (И) и OR (ИЛИ), листьями дерева являются бинарные предикторы или их логические отрицания (NOT, НЕ). Оценочную функцию, определяющую, насколько модель соответствует исходным данным, вводили как количество элементов целевого ФП, для которых не выполнялось найденное логическое правило.

Оптимизацию оценочной функции проводили пошаговым методом. Определили набор обратимых шагов, позволяющих переходить от одного логического дерева к другому, производя, таким образом, поиск наилучшего логического выражения, предсказывающего целевой ФП. Использовали шаги: изменить лист (ФП-предиктор), изменить оператор (узел дерева), добавить новую ветвь, удалить ветвь, разделить лист, удалить лист. В новой точке пространства логических деревьев вычисляли оценочную функцию, чтобы определить, произошло ли улучшение модели (уменьшение значения оценочной функции) по сравнению с предыдущим шагом. Для минимизации значений оценочной функции использовали метод симулированного отжига (Kirkpatrick et al., 1983).

3. ОСНОВНЫЕ РЕЗУЛЬТАТЫ 3.1 Общая методология работы

Согласно основному допущению метода ФП белки, обладающие сходными ФП, являются взаимосвязанными. Однако, в большинстве работ подобные предсказания проводятся лишь для пары белков, при этом используется единый подход. Прежде всего, вводится метрика, определяющая взаимосвязь между парой белков. Обычно с этой целью используют расстояние Хэмминга, расстояние Жаккара или взаимную информацию между ФП. Затем выбирается определенное значение метрики (порог), и все пары белков, для которых метрика оказывается больше порога, считаются взаимосвязанными. Результаты работы указанного алгоритма обычно сравниваются с базой данных по взаимодействующим белкам, оценивается число ложноположительных и ложноотрицательных предсказаний.

В нашей работе развит подход, ориентированный на поиск групп взаимосвязанных белков (функциональных белковых модулей). Группы взаимосвязанных белков формируются в результате применения методов кластерного анализа к матрице расстояний между ФП белков. Постановка задачи в форме поиска функциональных модулей по сравнению с предсказанием пар взаимосвязанных белков отражает системный подход, позволяющий полнее раскрыть контекст найденных взаимосвязей между белками. Например, изучение аннотаций белков, входящих в одну группу с неохарактеризованным белком, может способствовать формированию гипотез о возможной функции этого белка.

Для применения сформулированного подхода к поиску функциональных белковых модулей требуется указать ряд параметров, влияющих на результаты работы алгоритма: метод кластеризации, способ определения расстояния между ФП и набор референтных геномов. Соответственно для максимизации точности предсказания функциональных белковых модулей в смысле соответствия данным КБвв было необходимо провести поиск оптимальных значений указанных параметров.

Для количественной оценки точности предсказаний функциональных белковых модулей в работе использовали математический аппарат сравнения двух разбиений. Под разбиениями понимали распределение ряда белков на группы. Например, разбиением являлся результат кластерного анализа ФП - распределение белков на группы согласно мере схожести соответствующих ФП. Распределение белков по метаболическим путям, известным из БД КЕСС, также рассматривали как разбиение, с той лишь разницей, что один белок мог быть аннотирован как относящийся одновременно к нескольким метаболическим путям. Математически разбиение

описывается с помощью матрицы принадлежности. Для анализа точности предсказаний функциональных белковых модулей сравнивали два разбиения -матрицу принадлежности Mi, описывавшей данные о метаболических путях, и матрицу принадлежности М2, описывавшей результаты кластерного анализа ФП.

В работе использовали два внешних индекса для оценки степени соответствия двух разбиений: евклидово расстояние между матрицами принадлежности М[ и М2 и индекс Рэнда. В результате, задачу оптимизации метода ФП для предсказания групп взаимосвязанных белков свели к сравнению внешних индексов разбиений, получаемых при определенных значениях параметров. Нужно отметить, что подобная методика является универсальной и может быть применена для изучения любого алгоритма предсказания групп взаимосвязанных белков.

3.2 Определение оптимального набора референтных геномов

Точность предсказаний взаимосвязанных белков методом ФП существенно зависит от набора используемых референтных геномов. Поэтому мы определили оптимальный набор референтных геномов, максимизирующий соответствие состава полученных кластеров белков и метаболических путей KEGG. Для этого из референтных геномов исключили как чрезмерно филогенетически близкие, так и чрезмерно филогенетически удаленные организмы.

ФП для белков E.coli Kl2 загрузили из БД KEGG, раздел Orthology. Первоначально набор референтных геномов включал в себя данные о 1067 организмах (827 геномов бактерий, 62 генома архей и 178 геномов эукариот). Далее из матрицы ФП исключили все геномы эукариот, поскольку использование таких чрезмерно филогенетически удаленных видов ухудшает точность работы метода. Затем были выявлены все случаи, когда определенный вид микроорганизмов был представлен более чем одним штаммом, и из матрицы ФП были исключены все геномы таких штаммов за исключением одного, выбранного случайным образом.

На этой стадии отобранный набор включал 588 геномов, в том числе 54 генома архей и 534 генома бактерий. Для определения относительных расстояний между референтными геномами, построили неукорененное филогенетическое дерево, используя объединенные последовательности генов, присутствующих одновременно во всех геномах (rpsC, rpsD, rpsG). Для множественного выравнивания использовали программу MUSCLE 3.6 с параметрами по умолчанию. Филогенетическое дерево построили методом максимального правдоподобия с помощью программы protml из пакета PHYLIP 3.6 с параметрами по умолчанию. Используя полученную матрицу филогенетических расстояний между геномами, определяли группы

близкородственных микроорганизмов. Из каждой группы случайным образом выбирали один геном.

Сравнительный анализ результатов для матриц ФП с различным количеством столбцов позволил изучить влияние набора референтных геномов на точность предсказаний взаимосвязанных белков. Кластеризацию матрицы ФП проводили для различных комбинаций метода кластеризации и способа определения расстояния между ФП. Количество кластеров задавали равным 124, согласно количеству известных метаболических путей для Е.соП К12.

На рисунке 2 представлена зависимость индекса Рэнда от количества референтных организмов. Индекс Рэнда рассчитывали на основе сопоставления состава полученных кластеров взаимосвязанных белков и метаболических путей ЮКлО, причем большие значения индекса означали лучшее соответствие. На рисунке показаны только комбинации кластеризация/расстояние, давшие наилучшие результаты. Количество референтных организмов находилось в диапазоне от 11 до 588, при этом большее значение соответствовало присутствию групп близкородственных организмов.

Количество референтных организмов

Рисунок 2. Зависимость индекса Рэнда от количества референтных организмов, используемых в матрице ФП. Меры расстояния между ФП: по Кульчинскому (kulczynski), по Жаккару (jaccard), взаимная информация (mutinfo), вероятность случайного совпадения ненулевых элементов ФП (prob). Методы кластеризации: Уорд (ward), РАМ, метод дальней связи (complete). Сглаживание произведено методом Loess с параметром 0,4.

Как следует из рисунка 2, для всех комбинаций расстояние/кластеризация зависимость индекса Рэнда от количества используемых референтных организмов имеет приблизительно одинаковый характер. Индекс Рэнда быстро возрастает при

11

увеличении количества референтных геномов от 11 до 100, выходит на плато в диапазоне от 100 до 200 и далее постепенно снижается. Наилучшие результаты дает кластеризация методом РАМ по взаимной информации, среднее значение индекса Рэнда в диапазоне 100-200 референтных организмов составило 0,155. Применение метода Уорда и расстояния Кульчинского дало несколько худшие результаты: среднее значение индекса Рэнда в том же диапазоне оказалось равным 0,140. Максимальная точность остальных комбинаций кластеризация/расстояние была в среднем ниже и составила 0,13.

Исходя из полученных данных можно заключить, что использование 100-200 референтных организмов в ФП является оптимальным с точки зрения соответствия состава полученных кластеров белков и метаболических путей KEGG. Применение же большего количества референтных геномов ухудшает результаты метода ФП. В дальнейшем использовали набор из 150 референтных организмов, названия которых приведены в Приложении 1 диссертационной работы. Полученный характер зависимости точности метода ФП от количества референтных геномов соответствует литературным данным, опубликованным ранее (Sun et al., 2005). В этой работе было показано, что при использовании более 86 референтных геномов точность работы метода ФП для E.coli перестает существенно повышаться, и достигает максимума при 145 референтных организмах.

3.3 Определение оптимальных параметров кластеризации ФП

Провели перебор 25 комбинаций методов кластеризации и способов определения расстояний для ФП белков E.coli К12, используя определенный ранее набор из 150 референтных геномов. Для всех использованных методов кластерного анализа было необходимо указывать количество кластеров, на которые происходит группирование белков. Количество кластеров варьировали в диапазоне от 5 до 250, для каждого значения количества кластеров и комбинации кластеризация/расстояние рассчитывали внешние индексы: расстояние между матрицами принадлежности KEGG и полученной кластеризации, а также индекс Рэнда.

На рисунке 3 представлена зависимость расстояния между матрицами принадлежности KEGG и полученной кластеризации от количества кластеров для наилучших комбинаций кластеризация/расстояние. Меньшие значения индекса соответствуют лучшему совпадению полученных кластеров белков с метаболическими путями KEGG. В результате минимизации данного индекса для каждой комбинации кластеризация/расстояние получили матрицу перестановки Р, согласно которой каждый кластер был наилучшим образом сопоставлен

соответствующему метаболическому пути КЕОО. Так, для кластеризации на 124 кластера методом РАМ с использованием взаимной информации как расстояния было получено, что 38,3% белков, входящих в один из метаболических путей КЕСО, оказались в одном кластере. Для всех комбинаций кластеризация/расстояние характерен одинаковый тип зависимости: постепенное уменьшение индекса с увеличением количества кластеров, выход на плато достигается в районе 130-140 кластеров.

Наилучшее совпадение кластеризации ФП с данными КЕСв было получено при кластерном анализе методом РАМ и использовании взаимной информации в качестве меры расстояния. Для 110 кластеров был достигнут глобальный минимум индекса равный 37,2 (отмечено стрелкой, рис. 2). Поскольку в БД КЕСО число метаболических путей для Е.соИ К12 равно 124 (показано пунктирной линией), то можно отметить достаточно хорошее согласие в оценке количества кластеров.

Следующее по степени соответствия метаболическим путям КБвй группирование белков было получено при кластеризации по методу Уорда и использовании взаимной информации в качестве меры расстояния. Полученный при этом глобальный минимум индекса равен 37,5 при 122 кластерах, чем почти достигается соответствие числа кластеров и метаболических путей КЕСв. В районе 120-125 кластеров отмечается приблизительное равенство значений индекса с методом РАМ.

1

| 42

|

¡4, а

I40

О) 2

I 39

О

8 ГС

38

£

0 а

1 37

0 20 40 60 80 100 120 140 160 180 200 220 240 Количество кластеров

Рисунок 3. Зависимость расстояния между матрицами принадлежности от количества кластеров, по которым происходит распределение ФП. Меры расстояния: взаимная информация между ФП (mutinfo), расстояние Хэмминга (hamming), Жаккара (jaccard), Кульчинского (kulczynski), вероятность случайного совпадения ненулевых элементов ФП (prob). Методы кластеризации: Уорда (ward), РАМ и полной связи (complete).

Следует отметить, что для трех наиболее соответствующих данным КЕСв комбинаций кластеризация/расстояние используется взаимная информация, в то время как метод кластерного анализа различается. На основании этого можно предположить, что используемая мера расстояния между ФП в большей степени влияет на результаты предсказания групп взаимосвязанных белков, чем метод кластеризации. Среди способов кластеризации лидируют методы РАМ, Уорда и полной связи. Остальные методы кластеризации показывают худшие результаты (не приведены на рисунке).

Аналогичные результаты по определению наилучшей комбинации кластеризация/расстояние, полученные для индекса Рэнда, согласовывались с результатами для расстояния между матрицами принадлежности. В обоих случаях списки наилучших комбинаций метода кластеризации и расстояния между ФП во многом совпадают как по составу, так и по ранжированию. При этом среди способов кластеризации также встречаются только методы Уорда, полной связи и РАМ.

Таким образом, можно заключить, что наилучшее согласие в составах получаемых кластеров белков и метаболических путей КЕОО достигается при использовании взаимной информации как меры расстояния между ФП и метода РАМ для кластеризации ФП. Выбор меры расстояния между ФП оказывает большее влияние на состав полученных групп белков по сравнению с использованным способом кластеризации.

3.4 Предсказание состава известных метаболических путей методом ФП

Для выявления взаимосвязанных белков Е.соИ К12 использовали взаимную информацию в качестве расстояния между ФП и метод РАМ как вариант кластерного анализа согласно ранее полученным результатам. Провели кластеризацию ФП на 124 кластера, в соответствии с количеством известных метаболических путей для Е.соИ К12 согласно БД КЕйО.

При вычислении расстояния между матрицами принадлежности кластеризации ФП и метаболических путей КЕвО, определили матрицу перестановки, задающую наилучшее соответствие полученных кластеров взаимосвязанных белков и метаболических путей. Для каждого метаболического пути определили количество белков, которые входят в кластер, наилучшим образом соответствующий данному пути.

На рисунке 4 приведена диаграмма, отражающая степень соответствия состава кластеров ФП разделам БД КЕйС. Как следует из рисунка 4, пять метаболических путей КБвв воспроизводятся с точностью, превышающей 75%, в то время как 80

14

метаболических путей КЕвО воспроизводятся с точностью менее 25%. Полная таблица результатов приведена в Приложении 2 диссертационной работы.

Степень соответствия кластеров ФП метаболическим путям БД KEGG

□ соответствие 0 - 25%

□ соответствие 25 - 50%

|Э соответствие 50 - 75% Щ соответствие 75 - 100%

Рисунок 4. Степень соответствия состава кластеров ФП метаболическим путям БД KEGG для белков E.coli Kl2. Для каждого метаболического пути определили кластер, наилучшим образом ему соответствующий. Цветом показана доля белков в метаболическом пути, входящих в указанный кластер.

Максимально точно был воспроизведен состав метаболического пути с идентификатором 02040, куда входит 38 белков участвующих в сборке жгутиков. Наилучшим образом этому пути соответствует кластер №42, включающий в себя, кроме 35 белков для сборки жгутика, еще 3 белка (csrA, nrfA, cheZ), которые аннотированы как принадлежащие к другим разделам KEGG. Таким образом, для указанного раздела KEGG точность воспроизведения составила 35/38 = 91,2%.

Проведенный анализ показал, хотя в БД KEGG белки csrA и cheZ не отнесены к разделу 02040, тем не менее, оба этих белка связаны с функционированием жгутика. Согласно БД UniProt, белок csrA необходим для пост-трансляционной активации экспрессии генов FlhC и FlhD. Белок cheZ является фосфатазой, участвующей в генерации регулирующего сигнала для вращения жгутика. Для белка nrfA (периплазматической нитрит-редуктазы) установить прямую взаимосвязь с функционированием жгутика не удалось. Однако, косвенным свидетельством в пользу такой взаимосвязи может являться тот факт, что у мутантных E.coli по гену hmp, отвечающим за метаболизм оксида азота, по неустановленной причине наблюдались нарушения в формировании жгутиков (Stevanin et al., 2007). Тем самым, практически для всех белков кластера №42 удалось подтвердить их участие в функционировании жгутика, несмотря на то, что согласно БД KEGG, вышеуказанные три белка с этим процессом не связаны.

3.5 Предсказание групп взаимосвязанных белков de novo

При предсказании взаимосвязанных белков E.coli Kl2 мы опирались на информацию о их распределении по разделам базы KEGG. Эти данные использовали в качестве эталона для определения параметров метода ФП, максимизирующих соответствие состава найденных кластеров взаимосвязанных белков и метаболических путей БД KEGG. При этом количество таких групп полагали заранее известным и равным числу метаболических путей E.coli.

На практике возможна другая постановка задачи: как можно использовать информацию о ФП для предсказания групп взаимосвязанных белков de novo, то есть в ситуации, когда отсутствуют данные о белковых взаимодействиях и априорные биохимические сведения. Подобная формулировка проблемы возникает при изучении организма, для которого известна только последовательность генома, но нет экспериментальных сведений о функциях белков.

Важнейшим параметром, определяющим состав получаемых групп взаимосвязанных белков, является количество кластеров, на которое производится разбиение. При наличии аннотаций белков из KEGG, количество кластеров должно быть примерно равным количеству молекулярных процессов, обеспечивающих существование изучаемого организма. Поскольку в отношении малоизученных организмов функциональные аннотации для белков отсутствуют или ненадежны, то необходимо установить оптимальное количество кластеров без привлечения какого-либо дополнительного источника информации, помимо матрицы ФП.

Несмотря на то, что в БД KEGG содержится информация о 118 метаболических путях M.tuberculosis H37Rv, мы не использовали эти сведения в изложенных далее вычислительных экспериментах. Группы взаимосвязанных белков M.tuberculosis выявляли исключительно путем кластерного анализа данных о 1770 соответствующих ФП. Для каждого количества кластеров в диапазоне от 5 до 150 рассчитывали набор внутренних индексов для оценки "качества" полученного разбиения. Использовали 25 комбинаций метода кластеризации и меры расстояния между ФП. Для наилучшей в смысле каждого внутреннего индекса комбинации кластеризация/расстояние анализировали зависимость указанного индекса от количества кластеров. Согласно L-методу определяли точку, в которой характер зависимости внутреннего индекса от числа кластеров изменялся. Полученное значение количества кластеров рассматривали в качестве оценки предполагаемого количества молекулярных процессов.

В таблице 1 приведены оценки оптимального количества групп взаимосвязанных белков M.tuberculosis для различных внутренних индексов. В

последней колонке приведены комбинации кластеризации/расстояния, для которых было достигнуто наилучшее "качество" получаемого разбиения белков по кластерам согласно каждому индексу.

Таблица 1. Оценки оптимального количества групп взаимосвязанных белков МЛиЬегси1о$1$ для различных внутренних индексов. Показаны четыре лучшие комбинации метода кластеризации и расстояния между ФП._

Внутренний индекс Оценка кол-ва кластеров Лучшие сочетания расстояние/кластеризация

Индекс Дана 99 mutinfo_complete mutinfo_pam mutinfo_ward kulczynski complete

Индекс Дэвиса-Болдуина 93 prob_average prob_complete prob_ward prob diana

Г-статистика Хьюберта 85 mutinfo_complete kulczynski_complete kulczynski_average mutinfo diana

Отношение внутрикластерного расстояния к междукластерному 98 prob_ward prob_complete prob_diana prob average

"Ширина силуэта" 106 hamming_ward, hamming_pam jaccard_ward prob ward

Наименьшую оценку количества кластеров (85) дает использование Г-статистики Хьюберта. Максимальную оценку количества кластеров (106) получили с использованием индекса "ширина силуэта", причем эта оценка примерно соответствует данным KEGG (118 метаболических путей).

Анализируя лучшие комбинации метода кластеризации и расстояния между ФП для каждого внутреннего индекса можно отметить, что мера расстояния оказывает большее влияние на получаемую кластеризацию белков по сравнению с применяемым вариантом кластерного анализа. Это согласуется с данными, полученными ранее для внешних индексов при анализе ФП белков E.coli. Так, для индекса Дана в трех из четырех комбинациях кластеризация/расстояние используется взаимная информация (mutinfo). Для индекса Дэвиса-Болдуина и для отношения внутрикластерного расстояния к междукластерному в качестве "наилучшей" меры расстояния используется только вероятность случайного совпадения ненулевых

элементов ФП (prob), в то время как преобладающий способ кластеризации не выявлен.

Использование внутренних индексов не позволяет однозначно определить оптимальную комбинацию кластеризация/расстояние. Поэтому для поиска групп взаимосвязанных белков M.tuberciilosis H37Rv использовали комбинацию кластеризация/расстояние, установленную ранее на данных о ФП белков E.coli, а именно: кластерный анализ методом РАМ и взаимную информацию (mutinfo_pam).

Определение количества кластеров взаимосвязанных белков мы проводили на основе данных о поведении внутренних индексов. Усреднив количество кластеров, определенное для каждого внутреннего индекса, получили, что оптимальное количество функциональных модулей для M.tuberciilosis равно 96. Провели кластерный анализ ФП белков М.tuberculosis для разбиения на 96 кластеров. При этом мы не использовали никакой априорной информации, кроме матрицы ФП.

В качестве примера полученных результатов на рисунке 5 представлены ФП из кластера №33. В состав этого кластера полностью вошли все 20 цитохромов Р450, закодированные в геноме М.tuberculosis. В кластер также вошел белок choD, являющийся оксидоредуктазой, участвующей в метаболизме холестерина. Можно отметить идеальное совпадение ФП для всех цитохромов Р450. Присутствие в геноме столь большого количества цитохромов Р450 сильно выделяет туберкулезную микобактерию среди остальных прокариот. Высказываются предложения использовать цитохромы Р450 в качестве мишени для создания противотуберкулезного лекарственного препарата (McLean et al., 2007), например, на основе веществ из группы азолов

Рисунок 5. Филогенетические профили кластера №33. Большинство белков в кластере являются цитохромами Р450. Стрелкой отмечен белок сМ), являющийся о ксидоредуктазой.

Другой пример приведен на рисунке 6, где представлены ФП из кластера №11. В состав этого кластера входят исключительно субъединицы ЫАОН-дегидрогеназы типа I. Из 14 субъединиц, участвующих в формировании этого белкового комплекса,

18

в данный кластер вошли 11. Этот пример иллюстрирует применнимость кластеризации ФП для выявления физически взаимодействующих белков, таких как субъединицы в составе одного белкового комплекса. Согласно работе (Уе1типщап е1 а]., 2007), одна из субъединиц указанной ЫАОН-дегидрогеназы, а именно пиой, участвует в ингибировании апоптоза макрофагов, что является необходимым фактором вирулентности патогенных микобактерий.

Рисунок 6. ФП для кластера №11. Все белки в кластере являются субъединицами N АОН-дегидрогеназы.

Таким образом, кластеризация ФП белков M.tuberculosis на оцененное по внутренним индексам число групп может использоваться для предсказания как физических взаимодействий между белками, так и функциональных взаимосвязей.

3.6 Поиск логических взаимосвязей между ФП белков

В дополнение к поиску групп белков на основании сходства ФП, в работе использовали другой подход к выявлению взаимосвязанных белков. Впервые данный метод, названный логическим анализом филогенетических профилей, был предложен в работе (Bowers et al., 2004). Подход состоит в поиске логических конструкций, связывающих между собой более двух ФП. Например, в случае последовательной ферментативной реакции А—>В—>С, фермент С скорее будет закодирован в геноме только в том случае, если в геноме одновременно также присутствуют гены, кодирующие оба других фермента. В этом случае ФП соответствующих ферментов можно записать как логическое пересечение: С = A AND В. В данной работе впервые использовали аппарат логической регрессии для поиска логических правил связывающих заданный ФП с произвольным числом других ФП (предикторов), что обобщает работу Bowers с соавторами, где использовались только тройки ФП.

Выявление логических закономерностей проводили для 1770 ФП белков M.tuberculosis H37Rv. Отбор логических правил был ограничен условиями, чтобы в результирующее правило входило не более четырех ФП-предикторов и не более трех логических операций типа AND и OR. При этом каждый ФП-предиктор мог быть заменен своим логическим отрицанием (операция NOT). Среди найденных

логических закономерностей, 56% составили правила, которые выполнялись для всех элементов ФП без исключений.

Некоторые найденные логические правила были проанализированы с целью определения таких взаимосвязей между белками, которые могут представлять интерес для понимания особенностей метаболизма M.tuberculosis. Одним из примеров такого логического анализа ФП, является следующее правило:

Rvl819c = (Rv2399c AND Rvl970) AND (Rvl607 OR Rv3137) (3)

Выражение (3) означает, что ген Rvl819c присутствует в геномах референтных микроорганизмов только в том случае, если также одновременно присутствуют гены Rv2399c, Rvl970, и один из генов Rvl607 или Rv3137, или оба этих гена вместе. Эта закономерность выполнялась для 147 референтных геномов из 150.

В БД UniProt Rvl819c охарактеризован как трансмембранный белок, принадлежащий к суперсемейству ABC-транспортеров. Было показано что, несмотря на отсутствие глобальных нарушений в целостности мембраны, инактивирование гена Rvl819c приводит к увеличению резистентности мутантных по этому гену микобактерий к блеомицину и способствует развитию хронической инфекции (Domenech et al., 2009). По мнению авторов указанной работы, эти данные свидетельствуют об участии продукта гена Rvl819c в транспорте молекул, обуславливающих взаимодействие патоген-хозяин.

Белок Rv2399c (ген cysT) является сульфат-пермеазой и также принадлежит к суперсемейству ABC-транспортеров. В работе (Sassetti et al., 2003) путем высокопроизводительного мутагенеза с помощью транспозонов показано, что cysT необходим для роста и выживания M.tuberculosis.

Белок Rvl970 (ген IprM или тсеЗЕ) принадлежит к семейству липопротеинов МСЕ. Точная роль этого белка пока остается неизвестной, но есть свидетельства в пользу того, что Rvl970 обеспечивает механизм проникновения патогена в клетку-хозяина (El-Shazly et al., 2007).

Белок Rvl607 (ген cha А) является Са2+/Н+ антипортером.

Белок Rv3137 является инозитол-монофосфатазой - ферментом, участвующим в синтезе фосфатидилинозитола из миоинозитола. Этот процесс играет весьма важную роль, поскольку клеточная стенка M.tuberculosis содержит различные гликолипиды, содержащие фосфатидилинозитол. Эти гликолипиды выполняют структурную функцию, а также участвуют во взаимодействиях патоген-хозяин.

Таким образом, анализ функциональных аннотаций ФП-предикторов найденного логического правила показал взаимосвязь трансмембранных транспортеров и биосинтеза фосфатидилинозитола. При этом для трех белков из пяти

показано их участие во взаимодействиях патоген-хозяин, что позволяет предложить их как перспективные мишени для противотуберкулезных препаратов. Найденную взаимосвязь между кальциевым антипортером Rvl607 и инозитол-монофосфатазой Rv3137 объясняет работа (Berggard et al., 2002), в которой показано, что связанный с Са2+ калбиндин обуславливает повышение активности инозитол-монофосфатазы до 250-кратного уровня. Тем самым автоматически полученному логическому правилу может быть дана разумная биологическая интерпретация.

4. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

В работе использованы методы сравнения разбиений для оптимизации параметров метода ФП. Одним из таких параметров является набор референтных геномов. Удаление из матрицы ФП групп близкородственных организмов повысило точность работы метода. Это объясняется тем, что наличие гена в одном организме увеличивает вероятность нахождения его гомологов в филогенетически близких организмах. События не являются независимыми, поскольку геномы не сильно изменились в процессе эволюции. Следовательно, совпадение элементов в одинаковых позициях ФП, соответствующих филогенетически близким организмам, отражает не функциональную взаимосвязь между белками, а всего лишь эволюционную близость геномов. Поэтому использование близкородственных организмов, увеличивая размерность матрицы ФП, не вносит дополнительной информации, пригодной для предсказания взаимосвязанных белков, а только повышает уровень шума, ухудшая точность работы метода.

Среди "наилучших" способов кластеризации встречаются методы Уорда, полной связи и РАМ. Это указывает на наличие шума в данных об ФП, поскольку общим для всех этих методов является относительная устойчивость (робастность) к сильно разнящимся ФП. Так, для определения расстояния между кластерами метод полной связи использует максимальное расстояние между ФП - наиболее консервативную оценку. Метод Уорда минимизирует дисперсию кластеров и также является робастным методом. Метод РАМ в качестве центра кластера использует медоиды - обобщение понятия медианы, что является более робастной оценкой по сравнению с математическим ожиданием (центром тяжести в многомерном случае). Соответственно методы средней и ближней связей, а также метод DIANA не являются оптимальными для кластеризации ФП, будучи относительно неробастными.

Одной из причин появления шума в данных о ФП может являться некорректное определение ортологов генов. Также, возможно, как шум проявляют себя отклонения от относительно простого предположения метода ФП о взаимосвязи ко-

21

эволюционирующих белков. Такая ситуация вероятна, например, при использовании в качестве референтных организмов, ведущих паразитический образ жизни, что часто сопровождается значительной редукцией геномов, и, следовательно, зашумлением данных об ФП.

Относительно невысокие результаты воспроизведения состава метаболических путей E.col't К12 (только 20 метаболических путей из 124 восстановлены с точностью превышающей 50%) могут быть объяснены рядом причин. Во-первых, следует учитывать, что каждый белок KEGG может быть аннотирован как принадлежащий одновременно к нескольким метаболическим путям (нечеткое разбиение), в то время как в результате применения использованных в работе методов кластеризации каждый белок относится только к одному кластеру (фиксированное разбиение). Во-вторых, как показано в нашей работе, белки внутри каждого кластера могут быть корректно предсказаны как функционально взаимосвязанные, в то время как они относятся к разным разделам KEGG. Поэтому возможные "нарушения" в соответствии состава кластеров метаболическим путям KEGG могут таковыми и не являться при последующем анализе, а иметь биологическое значение. Также, многие пути KEGG, состав которых был воспроизведен в автоматическом режиме менее чем на 25%, содержат относительно малое количество белков. В 24 разделах KEGG, состав которых плохо воспроизводился при кластеризации ФП, в среднем содержались всего 3,8 белка.

Анализируя результаты, полученные с помощью внутренних индексов, можно отметить удовлетворительное согласие в оценке числа взаимосвязанных групп (96 для средней оценки согласно всем индексам и 118 согласно KEGG). В то же время внутренние индексы не позволяют однозначно указать "наилучшую" комбинацию кластеризация/расстояние (в отличие от внешних индексов). Это можно объяснить тем, что каждый внутренний индекс учитывает различные аспекты построенной кластеризации (компактность кластеров, расстояние между кластерами, соответствие матрице расстояний и т.д.).

Логическая регрессия ФП позволяет находить неочевидные функциональные взаимосвязи между белками, которые не могут быть выявлены при простом попарном сопоставлении ФП (что происходит при кластеризации). Используя этот подход возможно выдвигать гипотезы о функциональной роли белков, ФП которых входят в состав логических правил. В то же время необходимо контролировать параметры метода (максимальный размер модели), а предсказанные взаимосвязи между белками требуют экспериментальной проверки.

5. ВЫВОДЫ

1. Показано, что для оценки соответствия состава предсказанных кластеров взаимосвязанных белков и метаболических путей БД KEGG можно использовать внешние индексы для сравнения разбиений: расстояние между матрицами принадлежности и индекс Рэнда.

2. Наилучшее соответствие состава кластеров белков E.coli К12 данным БД KEGG достигается при использовании 150 референтных геномов, кластеризации методом РАМ и взаимной информации как меры расстояния между ФП. Степень соответствия в большей степени зависит от меры расстояния, чем от способа кластеризации.

3. Внутренние индексы для оценки кластеризации можно использовать для предсказания количества групп взаимосвязанных белков, опираясь исключительно на данные о ФП. Кластеризация ФП на оцененное количество групп, позволяет предсказывать физические и функциональные взаимосвязи между белками M.tuberculosis.

4. Метод логической регрессии позволяет выявлять взаимосвязи между белками, которые отличаются от результатов кластеризации ФП. Для белков M.tuberculosis выявили 991 логическую взаимосвязь, выполнявшуюся для всех референтных геномов.

6. СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Pyatnitskiv М.А.. Lisitsa A.V., Archakov A.I. Comparative Analysis of Methods for Clustering Phylogenetic Profiles // Сборник трудов конференции HUPO - 2006 -С.581

2. Пятницкий М.А., Курганский А.Д., Лисица А.В., Арчаков А.И. Приложение методов распознавания образов для поиска антимикробных препаратов // Материалы международной школы-конференции молодых ученых «Системная биология и биоинженерия», МАКС Пресс - Москва - 2006 - С.84.

3. Pyatnitskiv М.А.. Lisitsa A.V., Archakov A.I. Prediction of Protein-Protein Interactions: Phylogenetic Profiles and Cluster Analysis // Материалы конференции CMTPI - 2007 - С. 137.

4. Pyatnitskiv M.A.. Lisitsa A.V., Archakov A.I. Clustering Functionally Related Proteins In Prokaryotes Using Graph Representation of High Throughput Data // Сборник трудов конференции HUPO - 2007 - С. 118.

5. Moshkovskii S.A., Vlasova M.A., Pyatnitskiv M.A.. Tikhonova O.V., Safarova M.R., Makarov O.V., Archakov A. I. Acute phase serum amyloid A in ovarian cancer as an important component of proteome diagnostic profiling // PROTEOMICS - Clinical Applications - 2007 - № 1 (1) - С. 107-117.

6. Pyatnitskiv M.A.. Lisitsa A.V., Archakov A.I. Prediction of Functionally Related Proteins: Phylogenetic Profiles and Cluster Analysis // Сборник материалов международной конференции GPBNM - 2008 - С.38.

7. Пятницкий М.А.. Лисица А.В., Арчаков А.И. Предсказание взаимосвязанных белков: филогенетические профили и кластерный анализ // Сборник трудов конференции "Человек и лекарство" - 2008 - С.412.

8. Pyatnitskiv М.А.. Lisitsa A.V., Archakov A.I. Prediction of Functionally Related Proteins: Phylogenetic Profiles and Cluster Analysis // Сборник материалов международной конференции BGRS - 2008 - С. 199.

9. Пятницкий М.А.. Лисица А.В., Арчаков А.И. Предсказание взаимосвязанных белков методами сравнительной геномики in silico //Биомедицинская химия -2009 - т.55(3) - С.230-246.

10. Пятницкий М.А.. Лисица А.В., Арчаков А.И. Сравнение алгоритмов предсказаний взаимосвязанных белков на примере метода филогенетических профилей // Биомедицинская химия - 2009 - т.55(5) - С.534-538.

11. Пятницкий М.А., Лисица А.В., Арчаков А.И. Оптимизация метода филогенетических профилей для предсказания взаимосвязанных белков // Сборник трудов конференции "Математика. Компьютер. Образование" - 2009 -С.65.

12. Pyatnitskiv М.А.. Lisitsa A.V., Archakov A.I. Cluster Analysis of Phylogenetic Profiles // Сборник материалов международной конференции MCCMB - 2009 - С.300-301.

Заказ № 111-а/09/09 Подписано в печать 16.09.2009 Тираж 120 экз. Усл. п.л. 1,5

ООО "Цифровичок", тел. (495) 649-83-30; (495) 778-22-20 [ (ч ^ / i www. cfr. ru ; e-mail: info@cfr. rii

Содержание диссертации, кандидата биологических наук, Пятницкий, Михаил Алексеевич

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1. ОБЗОР ЛИТЕРАТУРЫ.

1.1 Молекулярная и контекстная функция белка.

1.2 Метод "розеттского камня" и анализ генных кластеров.

1.3 Метод филогенетических профилей.

1.4 Сравнение точности методов сравнительной геномики.

1.5 поиск логических взаимоотношений МЕЖДУ фп.

2. МАТЕРИАЛЫ И МЕТОДЫ.

2.1 Исходные данные.

2.2 Предсказание групп взаимосвязанных белков.

2.3 Сравнение кластеризации белков.

2.4 Оценка оптимального количества кластеров.

2.5 Построение филогенетического дерева.

2.6 Логическая регрессия.

2.7 Программное и аппаратное обеспечение.

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

3.1 анализ распределений расстояний между филогенетическими профилями.

3.2 определение оптимального набора референтных геномов.

3.4 определение оптимальных параметров для кластеризации ФП.

3.5 Предсказание состава известных метаболических путей методом ФП.

3.6 Предсказание групп взаимосвязанных белков de novo.

3.7 Поиск логических взаимосвязей между ФП белков.

Введение Диссертация по биологии, на тему "Выявление взаимосвязанных белков методами анализа геномов"

Одной из важнейших задач современной биологии является выявление белков, которые либо физически взаимодействуют между собой (например, являются субъединицами белкового комплекса), либо взаимосвязаны функционально (участвуют в одних и тех же метаболических или регуляторных путях). Определение таких белков позволит идентифицировать белковые взаимодействия, отвечающие за различные клеточные процессы, а также выявить возможные пути развития патологических состояний на молекулярном уровне. Для выявления белок-белковых взаимодействий применяются многочисленные экспериментальные методы: коиммунопреципитация [Masters S., 2004], белковые чипы [Kerschgens J. et al., 2009], масс-спектрометрия [Arifuzzaman M. et al., 2006] и т.д.

Исследование взаимосвязанных белков в настоящее время особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию [Mushegian А., 2007]. В настоящее время данные о первичной структуре большинства белков получают путем трансляции соответствующих генов in silico, вместо непосредственного определения последовательности аминокислот.

Уже накоплены сведения о последовательностях геномов более тысячи организмов. При этом широко употребляющийся термин "расшифровка генома" не отражает реальность, поскольку знание последовательности ДНК само по себе не несет в явном виде информации о роли этого гена и кодируемого им белка в функционировании клетки. Для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов — это хорошо отработанная технология. Поэтому основной проблемой, стоящей перед постгеномной биоинформатикой, можно считать наиболее рациональное использование имеющегося массива данных о секвенированных геномах для предсказания функций белков и выявления взаимосвязей между белками, обеспечивающих ключевые клеточные процессы.

Для решения подобных задач были созданы вычислительные методы, предсказывающие функции белка и взаимосвязи между белками. В дополнение к традиционному прогнозированию функции белка на основании гомологии, в течение последних лет добавились методы, опирающиеся на данные сравнительной геномики. Для поиска взаимосвязей между белками используются контекстные свойства генов - распределение гомологов в ряду организмов [Pellegrini М. et al., 1999], положение и относительный порядок следования генов на хромосоме [Overbeek R. et al, 1999b], частота слияний генов [Marcotte С., Marcotte Е., 2002]. Подобные методы называются контекстно-ориентированными, поскольку используемые свойства генов имеют смысл лишь при их одновременном сравнительном изучении в ряду геномов, то есть в определенном контексте. Анализ контекстных свойств гена показывает, что геном и совокупность геномов представляют собой особый тип данных, который нельзя сводить к простому сочетанию последовательностей генов [Koonin Е., Galperin М., 2003].

Для предсказания групп взаимосвязанных белков в работе использовали метод филогенетических профилей (ФП), согласно которому функционально взаимосвязанные белки также связаны и эволюционно [Pellegrini М. et al., 1999]. Данный метод использует интуитивно понятную идею, а также относительно прост в реализации. В методе ФП предполагается, что гены, кодирующие взаимодействующие белки, либо совместно наследуются вновь образованным видом, либо элиминируются естественным отбором, то есть являются ко-эволюционирующими. Каждый белок изучаемого организма характеризуется бинарным вектором (профилем), определяющим наличие гомолога гена, кодирующего данный белок, в ряду других геномов (т.н. референтных геномов). При наличии достаточного количества референтных геномов, каждая пара взаимосвязанных белков, входящих в структурный комплекс или метаболический путь, будет иметь схожие ФП.

Предложены различные модификации основной идеи метода ФП. В большинстве работ используется единый методический подход: на первом этапе вводится метрика, определяющая взаимосвязь между парой белков как функцию сходства их филогенетических профилей. Затем выбирается определенное значение метрики (порог), и все пары белков, для которых метрика выше порога, считаются взаимосвязанными. Результаты работы алгоритма сравниваются с одной из баз данных (БД) по взаимодействующим белкам: оценивается количество ложнопозитивных и ложнонегативных предсказаний.

В данной работе используется более общий подход, ориентированный на поиск групп взаимосвязанных белков, называемых также функциональными белковыми модулями [Snel В., Huynen М., 2004]. Предсказание функциональных модулей производится путем кластерного анализа матрицы расстояний между ФП белков. Поиск функциональных белковых модулей представляется более осмысленным по сравнению с предсказанием пар взаимодействующих белков, поскольку, связывая системную и молекулярную биологию, позволяет раскрывать контекст предсказанных взаимосвязей [Chen J., Yuan В., 2006; Vinogradov А., 2008] и прогнозировать функции неохарактеризованных белков [Dittrich М. etal., 2008].

Для применения модульного подхода к поиску функционально связанных белков необходимо выбрать параметры, влияющие на результаты работы метода ФП. Таковыми параметрами являются: набор референтных геномов, метод кластерного анализа и способ вычисления сходства между ФП. Для достижения максимальной точности предсказания функциональных белковых модулей необходимо подобрать оптимальные значения этих параметров.

Важным этапом работы являлся выбор способа проверки и верификации предсказанных групп взаимосвязанных белков, поскольку в литературе отсутствует общепринятая методика. Алгоритмы предсказания групп взаимосвязанных белков предложено сопоставить с точки зрения задачи о сравнении разбиений [Gan G. et al, 2007]. В этом случае, заданное экспертами "истинное" группирование взаимосвязанных белков сравнивается с результатами работы алгоритма. Таким образом, появляется возможность количественно сопоставлять различные подходы к предсказанию взаимосвязанных белков. Этот подход также позволяет учитывать возможность принадлежности белков к нескольким функциональным модулям и автоматически находить оптимальное количество таких модулей.

В качестве источника "корректных" групп взаимосвязанных белков использовали метаболические пути микроорганизмов из БД KEGG [http://www.genome.jp/kegg]. Сравнивая состав предсказанных групп взаимосвязанных белков с составом метаболических путей, определяли оптимальные параметры метода ФП.

В то же время можно представить ситуацию, когда информация о составе метаболических путей и их количестве недоступна или недостоверна, например, при изучении организма с вновь секвенированным геномом. Возникает вопрос, можно ли использовать данные о ФП для предсказания оптимального количества метаболических путей и будут ли биологически осмысленными полученные группы белков. Для решения этой задачи в работе использовали индексы, оценивающие полученное группирование белков без привлечения дополнительных источников информации.

Принципиально новый подход к поиску взаимосвязей между белками был описан в работе [Bowers P. et al., 2004а], в которой предлагается использовать логические операции для выявления более сложных ассоциаций между белками, нежели простое сходство на уровне ФП. Однако, Bowers et al. провели логический анализ только для троек ФП, а использованный метод не мог быть обобщен на большее количество белков. В настоящей работе для поиска ассоциаций более высокого порядка предложено использовать математический аппарат логической регрессии [Ruczinski I. et al., 2003], свободный от вышеуказанных недостатков.

Таким образом, целью работы явилось выявление групп взаимосвязанных белков E.coli К12 и M.tuberculosis H37Rv путем сравнения соответствующих филогенетических профилей, отражающих закономерности наследования генов в ряду прокариотических организмов.

Для этого необходимо последовательно решить следующие задачи:

1. Определить численные критерии для оценки соответствия состава предсказанных групп взаимосвязанных белков и метаболических путей БД KEGG.

2. Исследовать степень соответствия между кластеризацией ФП белков E.coli К12 и распределением белков по разделам БД KEGG в зависимости от набора референтных геномов, метода кластерного анализа и способа расчета различий между ФП. Предсказать группы взаимосвязанных белков E.coli К12, используя найденные оптимальные параметры метода ФП.

3. Оценить количество групп взаимосвязанных белков M.tuberculosis H37Rv, используя данные о ФП белков. Предсказать группы взаимосвязанных белков M.tuberculosis H37Rv путем кластеризации ФП на оцененное число групп.

4. Выявить дополнительные группы белков M.tuberculosis H37Rv, взаимосвязи внутри которых определяются наличием устойчивых логических отношений между ФП.

В качестве объекта исследования были выбраны геномы микроорганизмов E.coli К12 и M.tuberculosis H37Rv. Такой выбор объясняется тем, что для подбора оптимальных параметров при выявлении взаимосвязанных белков требуется сравнение с уже известными данными о функциональных аннотациях белков и сведения о распределении белков по известным метаболическим путям. Кишечная палочка является наиболее популярным из модельных микроорганизмов, а ее протеом изучен в тысячах экспериментальных работ. Поэтому изучение и оптимизация параметров метода ФП были проведены для белков E.coli К12.

Туберкулезная микобактерия была выбрана для применения оптимизированной методики, в связи с большой социальной и медицинской значимостью данного микроорганизма. В настоящее время важнейшей проблемой является борьба с высокорезистентными к антибиотикам штаммами M.tuberculosis, а поиск групп взаимосвязанных белков может указать на новые потенциальные белки-мишени для противотуберкулезных препаратов.

За последние 10 лет область вычислительного предсказания функции генов и белков активно развивается [Barker D. et al., 2007; Wu J. et al., 2006]. Важнейшим стимулом для развития является выполнение высокопроизводительных экспериментов, в первую очередь проектов по секвенированию полных геномов. Если первые геномы (Haemophilus influenzae, Mycoplasma pneumonia) аннотировались в основном экспертами [Fleischmann R. et al., 1995; Himmelreich R. et al1996], то в настоящее время первичная разметка вновь секвенированных геномов и предсказание функций генов осуществляется автоматически. При этом неизбежно возникает необходимость в автоматической же проверке и уточнении сделанных аннотаций [Artamonova I. et al2007]. Можно утверждать, что работы по определению взаимосвязанных генов и белков методами in silico будут крайне востребованы в обозримом будущем.

1. ОБЗОР ЛИТЕРАТУРЫ

Белковые взаимодействия определяют большинство процессов в клетке [Gavin A. et al., 2006; Li S. et al., 2004]. Реконструкция и изучение сетей взаимосвязанных белков позволяет систематизировать представления о молекулярных механизмах биологических процессов. Функция белка наиболее полно раскрывается в контексте его структурно-функциональных взаимодействий с другими белками: субъединицами, если белок является компонентом молекулярного комплекса, либо участниками биохимического процесса, если белок участвует в метаболическом пути или внутриклеточной передаче сигнала [Gabaldon Т., Huynen М., 2004; Huynen М. et al., 2003]. Исследование белок-белковых взаимодействий позволит лучше понять физиологию и патологию клетки, а в конечном итоге — всего организма.

Изучение взаимосвязанных белков сейчас особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию. В настоящее время данные о первичной структуре большинства белков получают путем in silico трансляции соответствующих генов, вместо прямого определения последовательности аминокислот, например, методом Эдмана.

Однако само по себе знание первичной структуры биополимера - это только начало определения его биологической значимости, раскрывающейся при добавлении биологических фактов в процессе аннотации последовательности. Словарь Webster определяет аннотацию как "заметку, добавленную при комментировании или объяснении". В базах данных по биологическим последовательностям такие аннотации обычно содержат информацию о клеточной роли и механизмах действия генов и их продуктов. Однако, для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов — это хорошо отработанная технология. На момент написания литературного обзора полностью секвенированны 869 геномов бактерий, 64 генома архей и 114 геномов эукариот [http://ncbi.nlrn.nih.gov/genbank]. При этом в настоящее время продолжаются проекты по секвенированию 2631 геномов бактерий, 97 геномов архей и 1049 геномов эукариот (по данным ресурса www.genomesonline.org).

Парадоксальность ситуации состоит в том, что объем получаемых данных намного больше того, который можно осмыслить, проверить и исследовать в эксперименте. Таким образом, увеличивается разрыв между получением биологических последовательностей (генов и белков) и определением функций этих последовательностей.

Обозначившееся отставание определения функции последовательностей от процесса их секвенирования возможно преодолеть развитием методов, которые позволят проводить функциональную аннотацию всех генов в геноме за приемлимое время. При этом возникает альтернатива между медленным и надежным аннотированием последовательностей экспертами-биологами и быстрым, но подверженным ошибкам, аннотированием с помощью полностью автоматизированных программных систем.

На протяжении 80-х и 90-х годов молекулярно-биологическое сообщество полагалось на высоко достоверные аннотации белков, которые разрабатывали относительно небольшие группы экспертов в процессе тщательного анализа опубликованных экспериментальных данных. В настоящее время ситуация в корне изменилась. Изучение записей в БД по биологическим последовательностям показывает, что для большинства последовательностей их аннотации были получены автоматическими методами. По данным системы RefSeq [http://www.ncbi.nlm.nih.gov/RefSeq/] от 1 мая 2009 года, всего 3,2% белков из БД было обработано экспертом для проверки качества автоматической функциональной аннотации. Близкие результаты дает и БД SwissProt [http://www.expasy.org/sprot/] — только для 6,6% функциональных аннотаций белков была проведена экспертиза. С течением времени доля проверенных специалистами аннотаций неуклонно уменьшается. В связи с экспоненциальным ростом потока данных о последовательностях (удвоение примерно каждые 18 месяцев), экспертам все больше приходится полагаться на предсказание функций методами in silico. В сложившейся ситуации совершенствование методов крупномасштабного автоматического аннотирования биологических последовательностей приобретает все большую значимость.

Заключение Диссертация по теме "Биоинформатика", Пятницкий, Михаил Алексеевич

5. ВЫВОДЫ

1. Показано, что для оценки соответствия состава предсказанных кластеров взаимосвязанных белков и метаболических путей БД KEGG можно использовать внешние индексы для сравнения разбиений: расстояние между матрицами принадлежности и индекс Рэнда.

2. Наилучшее соответствие состава кластеров белков E.coli К12 данным БД KEGG достигается при использовании 150 референтных геномов, кластеризации методом РАМ и взаимной информации как меры расстояния между ФП. Степень соответствия в большей степени зависит от меры расстояния, чем от способа кластеризации.

3. Внутренние индексы для оценки кластеризаций можно использовать для предсказания количества групп взаимосвязанных белков, опираясь исключительно на данные о ФП. Кластеризация ФП на оцененное количество групп, позволяет предсказывать физические и функциональные взаимосвязи между белками M.tuberculosis.

4. Метод логической регрессии позволяет выявлять взаимосвязи между белками, которые отличаются от результатов кластеризации ФП. Для белков M.tuberculosis выявили 991 логическую взаимосвязь, выполнявшуюся для всех референтных геномов.

4. ЗАКЛЮЧЕНИЕ

Метод ФП достаточно давно используется при решении задач сравнительной геномики [Pellegrini М. et al., 1999]. В заключение, хотелось бы еще раз подчеркнуть основные особенности данной работы.

Во-первых, задача выявления взаимосвязанных белков решалась не для пары белков, как это обычно проводится в работах, а путем поиска групп белков (функциональных модулей). Выявление таких групп взаимосвязанных белков осуществляли с помощью кластерного анализа матрицы ФП.

Во-вторых, провели систематический анализ методических аспектов задачи о нахождении групп взаимосвязанных белков. Для изучения влияния параметров метода ФП, использовали сравнение получаемых кластеризаций с данными БД KEGG. В результате, с помощью внешних индексов, определили параметры метода ФП, при которых достигалось наилучшее соответствие составов метаболических путей БД KEGG и найденных групп белков.

В-третьих, было показано, что возможно предсказывать количество функциональных белковых модулей, опираясь исключительно на данные о ФП. Для этого в работе изучали зависимость поведения внутренних индексов оценки кластеризаций от количества кластеров. Кластеризация ФП на определенное таким образом количество групп, позволяет предсказать как физические взаимодействия, так и функциональные взаимосвязи между белками.

Наконец, как альтернативу кластерному анализу, в работе впервые применили логическую регрессию для данных о ФП. Суть этого подхода состоит в поиске логических закономерностей среди ФП, когда присутствие в геноме одного гена может быть предсказано, используя наличие или отсутствие в геноме некоторого набора других генов (предикторов). Полученные группы логически ассоциированных белков имеют биологический смысл и позволяют выдвигать новые гипотезы о взаимосвязях между белками в клетке.

Библиография Диссертация по биологии, кандидата биологических наук, Пятницкий, Михаил Алексеевич, Москва

1. Altschul S.F., et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. //Nucleic Acids Res. 25: P.3389-3402.

2. Aravind L., Watanabe H., Lipman D.J., Koonin E.V. (2000) Lineage-specific loss and divergence of functionally linked genes in eukaryotes. //Proc. Natl. Acad. Sci. USA 97: P.l 1319-11324.

3. Archakov A.I., et al (2003) Protein-protein interactions as a target for drugs in proteomics. //Proteomics 3: P.380-391.

4. Arifuzzaman M., et al (2006) Large-scale identification of protein-protein interaction of Escherichia coli K-12. //Genome Res. 16: P.686-691.

5. Artamonova I.I., Frishman G., Frishman D. (2007) Applying negative rule mining to improve genome annotation. //BMC Bioinformatics 8: P.261.

6. Ashburner M., et al (2000) Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. //Nat. Genet. 25: P.25-29.

7. Bader J.S., Chaudhuri A., Rothberg J.M., Chant J. (2004) Gaining confidence in high-throughput protein interaction networks. //Nat. Biotechnol. 22: P.78-85.

8. Barker D., Meade A., Pagel M. (2007) Constrained models of evolution lead to improved prediction of functional linkage from correlated gain and loss of genes. //Bioinformatics 23: P. 14-20.

9. Barker D., Pagel M. (2005) Predicting functional gene links from phylogenetic-statistical analyses of whole genomes. //PLoS Comput. Biol. 1: Р.еЗ.

10. Berggard Т., Szczepankiewicz O., Thulin E., Linse S. (2002) Myo-inositol monophosphatase is an activated target of calbindin D28k. //J. Biol. Chem. 277: P .4195441959.

11. Bowers P.M., Cokus S.J., Eisenberg D., Yeates Т.О. (2004a) Use of logic relationships to decipher protein network organization. //Science 306: P.2246-2249.

12. Bowers P.M., etal (2005) Utilizing logical relationships in genomic data to decipher cellular processes. //FEBS J 272: P.5110-5118.

13. Bowers P.M., et al (2004b) Prolinks: a database of protein functional linkages derived from coevolution. //Genome Biol. 5: P.1-35.

14. Brown A.K., etal (2007) Dimerization of inositol monophosphatase Mycobacterium tuberculosis SuhB is not constitutive, but induced by binding of the activator Mg2+. //BMC Struct Biol 7: P. 1-55.

15. Camacho L.R., et al (2001) Analysis of the phthiocerol dimycocerosate locus of Mycobacterium tuberculosis. Evidence that this lipid is involved in the cell wall permeability barrier. //J. Biol. Chem. 276: P.19845-19854.

16. Campuzano V., et al. (1996) Friedreich's ataxia: autosomal recessive disease caused by an intronic GAA triplet repeat expansion. //Science 271: P. 1423-1427.

17. Chang G.S., et al. (2008) Phylogenetic profiles reveal evolutionary relationships within the "twilight zone" of sequence similarity. //Proc. Natl. Acad. Sci. USA 105: P.13474-13479.

18. Chen J., Yuan B. (2006) Detecting functional modules in the yeast protein-protein interaction network. //Bioinformatics 22: P.2283-2290.

19. Chen O.S., Hemenway S., Kaplan J. (2002) Inhibition of Fe-S cluster biosynthesis decreases mitochondrial iron export: evidence that Yfhlp affects Fe-S cluster synthesis. //Proc. Natl. Acad. Sci. USA 99: P.12321-12326.

20. Cole S.T., Eisenach K.D., McMurray D.N., Jacobs W.R. (2005) Tuberculosis and the Tubercle Bacillus, ASM Press: Washington, DC.

21. Collado-Vides J., Hofestdt R. (2002) Gene regulation and metabolism : postgenomic computational approaches, MIT Press: Cambridge.

22. Date S.V., Marcotte E.M. (2003) Discovery of uncharacterized cellular systems by genome-wide analysis of functional linkages. //Nat. Biotechnol. 21: P. 1055-1062.

23. Date S.V., Marcotte E.M. (2005) Protein function prediction using the Protein Link EXplorer (PLEX). //Bioinformatics 21: P.2558-2559.

24. Dittrich M.T., et al. (2008) Identifying functional modules in protein-protein interaction networks: an integrated exact approach. //Bioinformatics 24: P.223-231.

25. Domenech P., et al. (2009) BacA, an ABC transporter involved in maintenance of chronic murine infections with Mycobacterium tuberculosis. //J. Bacteriol. 191: P.477-485.

26. Durek P., Walther D. (2008) The integrated analysis of metabolic and protein interaction networks reveals novel molecular organizing principles. //BMC Syst Biol 2: P.100.

27. Edgar R.C. (2004) MUSCLE: a multiple sequence alignment method with reduced time and space complexity. //BMC Bioinformatics 5: P.l 13.

28. Eisenberg D., Marcotte E.M., Xenarios I., Yeates Т.О. (2000) Protein function in the post-genomic era. //Nature 405: P.823-826.

29. El-Shazly S., et al. (2007) Internalization by HeLa cells of latex beads coated with mammalian cell entry (Mce) proteins encoded by the mce3 operon of Mycobacterium tuberculosis. //J. Med. Microbiol. 56: P.l 145-1151.

30. Enault F., et al. (2003) Annotation of bacterial genomes using improved phylogenomic profiles. //Bioinformatics 19 Suppl 1: P.il05-107.

31. Enright A.J., Ouzounis C.A. (2001) Functional associations of proteins in entire genomes by means of exhaustive detection of gene fusions. //Genome Biol. 2: P. 34.

32. Ermolaeva M.D., White 0., Salzberg S.L. (2001) Prediction of operons in microbial genomes. //Nucleic Acids Res. 29: P.1216-1221.

33. Felsenstein J. (2005) PHYLIP (Phylogeny Inference Package). P.Distributed by the author. Department of Genome Sciences, University of Washington, Seattle.

34. Fitch W.M. (1970) Distinguishing homologous from analogous proteins. //Syst. Zool. 19: P.99-113.

35. Fleischmann R.D., et al. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. //Science 269: P.496-512.

36. Gabaldon Т., Huynen M.A. (2004) Prediction of protein function and pathways in the genome era. //Cell. Mol. Life Sci. 61: P.930-944.

37. Gan G., Ma C., Wu J. (2007) Data clustering: theory, algorithms, and applications, SIAM, American Statistical Association: Philadelphia.

38. Gavin A.C., et al. (2006) Proteome survey reveals modularity of the yeast cell machinery. //Nature 440: P.631-636.

39. Gelfand M.S., Rodionov D.A. (2008) Comparative genomics and functional annotation of bacterial transporters. //Physics of Life Reviews 5: P.22-49.

40. Glazko G., Gordon A., Mushegian A. (2005) The choice of optimal distance measure in genome-wide datasets. //Bioinformatics 21 Suppl 3: Р.ШЗ-11.

41. Glazko G.V., Mushegian A.R. (2004) Detection of evolutionarily stable fragments of cellular pathways by hierarchical clustering of phyletic patterns. //Genome Biol. 5: P.R32.

42. Haft D.H., Paulsen I.T., Ward N., Selengut J.D. (2006) Exopolysaccharide-associated protein sorting in environmental organisms: the PEP-CTERM/EpsH system. Application of a novel phylogenetic profiling heuristic. //BMC Biol. 4: P.29.

43. Han J.D., et al. (2005) Effect of sampling on topology predictions of protein-protein interaction networks. //Nat. Biotechnol. 23: P.839-844.

44. Himmelreich R., et al. (1996) Complete sequence analysis of the genome of the bacterium Mycoplasma pneumoniae. //Nucleic Acids Res. 24: P.4420-4449.

45. Hornik K. (2005) A CLUE for CLUster Ensembles. //Journal of Statistical Software 14: P.l-25.

46. Hutvagner G., et al. (2001) A cellular function for the RNA-interference enzyme Dicer in the maturation of the let-7 small temporal RNA. //Science 293: P.834-83 8.

47. Huynen M.A., Diaz-Lazcoz Y., Bork P. (1997) Differential genome display. //Trends Genet. 13: P.389-390.

48. Huynen M.A., Snel В., Bork P., Gibson T.J. (2001) The phylogenetic distribution of frataxin indicates a role in iron-sulfur cluster protein assembly. //Hum. Mol. Genet. 10: P.2463-2468.

49. Huynen M.A., Snel В., von Mering C., Bork P. (2003) Function prediction and protein networks. //Curr. Opin. Cell. Biol. 15: P. 191-198.

50. Jim K., Parmar K., Singh M., Tavazoie S. (2004) A cross-genomic approach for systematic mapping of phenotypic traits to genes. //Genome Res. 14: P.109-115.

51. Jothi R., Przytycka T.M., Aravind L. (2007) Discovering functional linkages and uncharacterized cellular pathways using phylogenetic profile comparisons: a comprehensive assessment. //BMC Bioinformatics 8: P.173.

52. Kanehisa M., et al. (2008) KEGG for linking genomes to life and the environment. //Nucleic Acids Res. 36: P.D480-484.

53. Karimpour-Fard A., Leach S.M., Gill R.T., Hunter L.E. (2008) Predicting protein linkages in bacteria: which method is best depends on task. //BMC Bioinformatics 9: P.397.

54. Kaufman L., Rousseeuw P.J. (2005) Finding Groups in Data. Wiley-Interscience.

55. Kelly W., Stumpf M. (2008) Protein-protein interactions: from global to local analyses. //Curr. Opin. Biotechnol. 19: P.396-403.

56. Kensche P.R., van Noort V., Dutilh B.E., Huynen M.A. (2008) Practical and theoretical advances in predicting the function of a protein by its phylogenetic distribution. //J. R. Soc. Interface 5: P. 151-170.

57. Kerschgens J., Egener-Kuhn Т., Mermod N. (2009) Protein-binding microarrays: probing disease markers at the interface of proteomics and genomics. //Trends Mol Med 15: P.352-358.

58. Kirkpatrick S., Gelatt C D., Jr., Vecchi M.P. (1983) Optimization by Simulated Annealing. //Science 220: P.671-680.

59. Koonin E.V., Galperin M.Y. (2003) Sequence evolution - function : computational approaches in comparative genomics./Koonin E.V., Galperin M.Y. Kluwer Academic: Boston.

60. Koonin E.V., Mushegian A.R., Bork P. (1996) Non-orthologous gene displacement. //Trends Genet. 12: P.334-336.

61. Kreimer A., Borenstein E., Gophna U., Ruppin E. (2008) The evolution of modularity in bacterial metabolic networks. //Proc. Natl. Acad. Sci. USA 105: P.6976-6981.

62. Kubassova О., Boyle R.D., Pyatnizkiy M. (2005) Bone Segmentation in Metacarpophalangeal MR Data. //Lecture Notes in Computer Science 3687: P.726-735.

63. Lewis J., et al. (2006) Text similarity: an alternative way to search MEDLINE. //Bioinformatics 22: P.2298-2304.

64. Li H., Kristensen D.M., Coleman M.K., Mushegian A. (2009) Detection of biochemical pathways by probabilistic matching of phyletic vectors. //PLoS One 4: P.e5326.

65. Li H., Liang S. (2009) Local network topology in human protein interaction data predicts functional association. //PLoS One 4: P.6410.

66. Li J.B., et al. (2004a) Comparative genomics identifies a flagellar and basal body proteome that includes the BBS5 human disease gene. //Cell 117: P.541-552.

67. Li Q., Lee B.T., Zhang L. (2005) Genome-scale analysis of positional clustering of mouse testis-specific genes. //BMC Genomics 6: P.7.

68. Li S., et al. (2004b) A map of the interactome network of the metazoan C. elegans. //Science 303: P.540-543.

69. Lin F.P., Coiera E., Lan R., Sintchenko V. (2009) In silico prioritisation of candidate genes for prokaryotic gene function discovery: an application of phylogenetic profiles. //BMC Bioinformatics 10: P.86.

70. Loganantharaj R., Atwi M. (2007) Towards validating the hypothesis of phylogenetic profiling. //BMC Bioinformatics 8 Suppl 7: P.S25.

71. Makarova K.S., Wolf Y.I., Koonin E.V. (2003) Potential genomic determinants of hyperthermophily. //Trends Genet. 19: P.172-176.

72. Marcotte C.J., Marcotte E.M. (2002) Predicting functional linkages from gene fusions with confidence. //Appl. Bioinformatics 1: P.93-100.

73. Marcotte E.M., et al. (1999) Detecting protein function and protein-protein interactions from genome sequences. //Science 285: P.751-753.

74. Marcotte E.M., Xenarios I., van Der Bliek A.M., Eisenberg D. (2000) Localizing proteins in the cell from their phylogenetic profiles. //Proc. Natl. Acad. Sci. USA 97: P.12115-12120.

75. Masters S.C. (2004) Co-immunoprecipitation from transfected cells. //Methods Mol Biol 261: P.337-350.

76. McLean K.J., et al. (2007) Structure, function and drug targeting in Mycobacterium tuberculosis cytochrome P450 systems. //Arch. Biochem. Biophys. 464: P.228-240.

77. Mellor J.C., et al. (2002) Predictome: a database of putative functional links between proteins. //Nucleic Acids Res. 30: P.306-309.

78. Mikkelsen T.S., Galagan J.E., Mesirov J.P. (2005) Improving genome annotations using phylogenetic profile anomaly detection. //Bioinformatics 21: P.464-470.

79. Moreno-Hagelsieb G., Collado-Vides J. (2002) A powerful non-homology method for the prediction of operons in prokaryotes. //Bioinformatics 18 Suppl 1: P.329-336.

80. Morett E., et al (2003) Systematic discovery of analogous enzymes in thiamin biosynthesis. //Nat. Biotechnol. 21: P.790-795.

81. Murry J.P., Pandey A.K., Sassetti C.M., Rubin E.J. (2009) Phthiocerol Dimycocerosate Transport Is Required for Resisting Interferon-gamma-Independent Immunity. //J. Infect. Dis. 3: P.206-209

82. Mushegian A.R. (2007) Foundations of Comparative Genomics. Academic Press.

83. Mushegian A.R., Koonin E.V. (1996) Gene order is not conserved in bacterial evolution. //Trends Genet. 12: P.289-290.

84. Negre et al. (2005) Conservation of regulatory sequences and gene expression patterns in the disintegrating Drosophila Hox gene complex. //Genome Res. 15: P.692-700.

85. Overbeek R., et al (1999a) Use of contiguity on the chromosome to predict functional coupling. //In Silico Biol 1: P.93-108.

86. Overbeek R., et al. (1999b) The use of gene clusters to infer functional coupling. //Proc. Natl. Acad. Sci. USA 96: P.2896-2901.

87. Pellegrini Mv et al. (1999) Assigning protein functions by comparative genome analysis: protein phylogenetic profiles. //Proc. Natl. Acad. Sci. USA 96: P.4285-4288.

88. Ponomarenko E.AV et al. (2009) Identification of differentially expressed proteins using automatic meta-analysis of proteomics-related articles. //Biomed Khim 55: P.5-14.

89. Price M.N., Huang K.H., Aim E.J., Arkin A.P. (2005) A novel method for accurate operon predictions in all sequenced prokaryotes. //Nucleic Acids Res. 33: P.880-892.

90. Raman K., Chandra N. (2008) Mycobacterium tuberculosis interactome analysis unravels potential pathways to drug resistance. //BMC Microbiol 8: P.234.

91. Ravasz E., et al. (2002) Hierarchical organization of modularity in metabolic networks. //Science 297: P. 1551-1555.

92. Rencher A.C. (2002) Methods of Multivariate Analysis./Rencher A.C. Wiley-Interscience.

93. Rodionov D.A., Gelfand M.S. (2005) Identification of a bacterial regulatory system for ribonucleotide reductases by phylogenetic profiling. //Trends Genet. 21: P.385-389.

94. Rogozin I.B., et al (2002) Connected gene neighborhoods in prokaryotic genomes. //Nucleic Acids Res. 30: P.2212-2223.

95. Ruczinski I., Kooperberg C., LeBlanc M. (2003) Logic Regression Methods and Software. //Journal of Computational and Graphical Statistics 12: P.475-511.

96. Salwinski L., Eisenberg D. (2003) Computational methods of analysis of protein-protein interactions. //Curr. Opin. Struct. Biol. 13: P.377-382.

97. Sassetti C.M., Boyd D.H., Rubin E.J. (2003) Genes required for mycobacterial growth defined by high density mutagenesis. //Mol. Microbiol. 48: P.77-84.

98. Schlicker A., Domingues F.S., Rahnenfiihrer J., Lengauer T. (2006) A new measure for functional similarity of gene products based on Gene Ontology. //BMC Bioinformatics 7: P.302.

99. Shoemaker B.A., Panchenko A.R. (2007a) Deciphering protein-protein interactions. Part I. Experimental techniques and databases. //PLoS Comput. Biol. 3: P.42.

100. Shoemaker B.A., Panchenko A.R. (2007b) Deciphering protein-protein interactions. Part II. Computational methods to predict protein and domain interaction partners. //PLoS Comput. Biol. 3: P.e43.

101. Shrager J. (2003) The fiction of function. //Bioinformatics 19: P.1934-1936.

102. Snel В., Huynen M.A. (2004) Quantifying modularity in the evolution of biomolecular systems. //Genome Res. 14: P.391-397.

103. Snitkin E.S., et al. (2006) Comparative assessment of performance and genome dependence among phylogenetic profiling methods. //BMC Bioinformatics 7: P.420.

104. Stan S., Philip C. (2004) Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms. //Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence.

105. Strong Mv et al. (2003a) Visualization and interpretation of protein networks in Mycobacterium tuberculosis based on hierarchical clustering of genome-wide functional linkage maps. //Nucleic Acids Res. 31: P.7099-7109.

106. Strong M., et al. (2003b) Inference of protein function and protein linkages in Mycobacterium tuberculosis based on prokaryotic genome organization: a combined computational approach. //Genome Biol. 4: P.59.

107. Sun J., et al. (2005) Refined phylogenetic profiles method for predicting protein-protein interactions. //Bioinformatics 21: P.3409-3415.

108. Tatusov R.L., et al. (2003) The COG database: an updated version includes eukaryotes. //BMC Bioinformatics 4: P.41.

109. Tatusov R.L., et al (1996) Metabolism and evolution of Haemophilus influenzae deduced from a whole-genome comparison with Escherichia coli. //Curr. Biol. 6: P.279-291.

110. Teichmann S.A. (2002) The constraints protein-protein interactions place on sequence divergence. //J. Mol. Biol 324: P.399-407.

111. Velmurugan Kv et al (2007) Mycobacterium tuberculosis nuoG is a virulence gene that inhibits apoptosis of infected host cells. //PLoS Pathog 3: P.l 10.

112. Watanabe H., Mori H., Itoh Т., Gojobori T. (1997) Genome plasticity as a paradigm of eubacteria evolution. //J. Mol. Evol. 44 Suppl 1: P.57-64.

113. Wu J., Hu Z., DeLisi C. (2006) Gene annotation and network inference by phylogenetic profiling. //BMC Bioinformatics 7: P.80.

114. Wu J., Kasif S., DeLisi C. (2003) Identification of functional links between genes using phylogenetic profiles. //Bioinformatics 19: P. 1524-1530.

115. Xenarios I., etal (2001) DIP: The Database of Interacting Proteins: 2001 update. //Nucleic Acids Res. 29: P.239-241.

116. Yamada Т., Kanehisa M., Goto S. (2006) Extraction of phylogenetic network modules from the metabolic network. //BMC Bioinformatics 7: P. 130.

117. Yanai I., Mellor J.C., DeLisi C. (2002) Identifying functional links between genes using conserved chromosomal proximity. //Trends Genet. 18: P.176-179.

118. Zanzoni A., et al (2002) MINT: a Molecular INTeraction database. //FEBS Lett 513: P.135-140.

119. Zweigenbaum P., Demner-Fushman D., Yu H., Cohen K.B. (2007) Frontiers of biomedical text mining: current progress. //Brief Bioinform 8: P.358-375.