Бесплатный автореферат и диссертация по биологии на тему
Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков γ-протеобактерий
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков γ-протеобактерий"

На правах рукописи

Садовская Наталия Сергеевна

Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков у-протеобактерий

03.01.09 Математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата биологических наук

1п

Москва-2012

005042993

Работа выполнена в Государственном научном центре Российской Федерации Федеральном государственном унитарном предприятии Государственного научно-исследовательского института генетики и селекции промышленных микроорганизмов

Научный руководитель:

доктор биологических наук, профессор Гельфанд Михаил Сергеевич

Официальные оппоненты:

Туманян Владимир Гайевич доктор физико-математических наук, профессор, Федеральное государственное бюджетное учреждение науки Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук, заведующий лабораторией

Опарина Нина Юрьевна кандидат биологических наук

Федеральное государственное бюджетное учреждение "Научно-исследовательский институт биомедицинской химии им. В.Н. Ореховича" Российской академии медицинских наук, старший научный сотрудник

Ведущая организация:

Федеральное государственное бюджетное учреждение науки Институт Общей Генетики им. Вавилова Российской академии наук

Защита диссертации состоится 30 мая 2012 года в 14-00 часов на заседании диссертационного совета Д 002.077.04 на базе Федерального государственного бюджетного учреждения науки Института проблем передачи информации им. A.A. Харкевича Российской академии наук по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, д. 19, стр. 1.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института проблем передачи информации им. A.A. Харкевича Российской академии наук.

Автореферат разослан № апреля 2012 года

Ученый секретарь диссертационного совета

доктор биологических наук, профессор у^э^/р-ггх, Рожкова Г.И.

Общая характеристика работы

Актуальность темы

Длинноцепочечные жирные кислоты являются ключевым компонентом всех липидов и таким образом представляют собой важнейшие компоненты мембран. Мембрана в свою очередь ограничивает содержимое клетки и выполняет роль барьера между цитоплазмой и окружающей средой. Согласно жидкостно-мозаичной модели, мембраны рассматривают как динамическую систему, основными составляющими которой являются липидный бислой и различные белки, обладающие широким спектром функциональной активности. Мембранные белки участвуют во всех основных функциях клетки и играют значительную роль в ее жизнедеятельности. Соответственно, полная характеристика как длинноцепочечных жирных кислот, так и мембранных белков является актуальной проблемой современной биологии, в том числе, биоинформатики.

В последнее время у исследователей появились новые возможности компьютерного анализа, обусловленные стремительным ростом количества полностью отсеквенированных геномов. Объем опубликованных нуклеотидных и аминокислотных последовательностей многократно превышает экспериментальные возможности их изучения. Таким образом, аннотация новых последовательностей зачастую осуществляется исключительно биоинформатическими методами и нередко определяет дальнейшие экспериментальные исследования. При этом необходимо отметить, что методы т $Шсо требуют меньших временных и материальных затрат и, следовательно, имеют преимущества перед другими подходами.

Одним из таких методов является сравнительный анализ геномных последовательностей. Он позволяет выявить новые члены метаболического пути и предсказать их функции, что особенно существенно при проведении поиска недостающих членов исследуемого пути. Кроме того, этот подход дает возможность переносить уже имеющуюся информацию о регуляции от одного хорошо изученного генома на другие, менее изученные экспериментально.

Алгоритмы, позволяющие идентифицировать трансмембранные белки на основании аминокислотной последовательности, а также дающие возможность предсказать положение трансмембранных сегментов в трансмембранных белках, представляют собой другой подход, широко применяемый в современной биоинформатике. При этом качество предсказаний алгоритмов составляет около 80%, а результаты сопоставления алгоритмов, полученные различными группами исследователей, заметно различаются. Следует отметить, что работ по сравнительному анализу, выполненных исследователями, которые не разрабатывали тот или иной алгоритм, крайне мало.

Цели и задачи исследования

Цель работы — описание регуляции транскрипции, кодирующей ферменты метаболизма генов длинноцепочечных жирных кислот в у-протеобактериях, и

разработка метода тестирования алгоритмов предсказания трансмембранных сегментов в условиях отсутствия экспериментальной тестовой выборки. В соответствии с этим были поставлены следующие задачи:

1. провести поиск выборки известных сайтов связывания факторов транскрипции FadR и FabR, регулирующих гены метаболизма длинноцепочечных жирных кислот;

2. построить распознающее правило для поиска потенциальных сайтов связывания FadR и FabR;

3. построить ортологические ряды генов, вовлеченных в метаболизм длинноцепочечных жирных кислот и определить их регуляцию в родственных организмах;

4. провести поиск новых членов регулонов FadR и FabR;

5. определить разметку потенциальных трансмембранных сегментов для а-спиральных белков и белков типа Р-бочонок с использованием доступных алгоритмов, реализованных в виде интеренет-серверов;

6. разработать и апробировать метод оценки качества предсказания алгоритмов на основе критерия самосогласованности в условиях дефицита данных трансмембранных белков с известной мембранной разметкой.

Научная новизна и практическая значимость

Впервые исследована регуляция белком FadR в четырех геномах у-протеобактерий. Благодаря проведенному анализу выявлены три новых гена, кодирующие ферменты катаболизма генов длинноцепочечных жирных кислот в у-протеобактериях, и показана регуляция одного нового гена:

- ген yafH, кодирующий ацил-СоА-дегидрогеназу, идентифицирован как ген, описанный ранее в литературе как fadE без привязки к геному;

- гены, входящие в состав оперона Ь2342-Ь2341, кодирующие р-кетоацил-СоА тиолазу и 3-гидроксиацил-СоА дегидрогеназу, соответственно, которые впоследствии получили название fadlJ.

- показана регуляция гена fadH.

Исследована регуляция белком FabR в шести группах у-протеобактерий. Благодаря проведенному анализу выявлен один новый регулируемый ген IcfH, кодирующий СоА-лигазу длинноцепочечных жирных кислот.

Разработан метод оценки качества предсказания алгоритмов на основе критерия самосогласованности в условиях дефицита трансмембранных белков с известной мембранной разметкой.

Выявлены наиболее надежные алгоритмы, реализованные в виде интернет-серверов, предсказывающие положение трансмембранных сегментов в а-спиральных белках и в белках типа Р-бочонок.

Апробация работы

Основные результаты диссертации были представлены на следующих конференциях: The Third International Conference on Bioinformatics of Genome Regulation and Structure (Novosibirsk, July 2002); The First International Moscow

Conference on Computational Molecular Biology (Moscow, July 2003); The Fourth International Conference on Bioinformatics of Genome Regulation and Structure (Новосибирск, июль 2004); Школа молодых ученых "Сравнительная геномика", (Севастополь, Украина, июнь 2005); The Second International Moscow Conference on Computational Molecular Biology (Moscow, July 2005); The Third International Moscow Conference on Computational Molecular Biology (Moscow, July 2007); 30-я конференции молодых ученых и специалистов ИППИ РАН "Информационные технологии и системы" Россия, сентябрь 2007; The Fourth International Moscow Conference on Computational Molecular Biology (Moscow, July 2009).

Структура и объем диссертации

Диссертационная работа состоит из введения, трех глав, выводов и списка цитируемой литературы. Работа изложена на 154 страницах машинописного текста и включает в себя 116 рисунков и 19 таблиц. Список цитируемых литературных источников содержит 215 наименований.

Содержание работы

Глава 1. Обзор литературы. Содержит критический обзор литературы по рассмотренным в диссертации задачам.

Глава 2. Материалы и методы. Содержит описание основных методов и программ, как известных, так и оригинальных, разработанных непосредственно для решения поставленных задач, а также интернет-ресурсов, использованных в работе.

Подход, основанный на сравнении геномов

Первичные данные, полученные с использованием матриц позиционных весов (МПВ), разделяют на потенциально функциональные и перепредсказанные сайты, применяя метод проверки соответствия. Суть данного метода состоит в том, что группа генов, образующих регулон (т.е. группу генов, совместно регулируемых определенным транскрипционным фактором) в одном геноме, будет также образовывать регулон в другом родственном геноме в тех случаях, когда в геноме присутствуют ортологи соответствующего транскрипционного фактора.

Для обнаружения группы ортологичных генов, имеющих потенциальный консервативный сайт связывания в 5'-некодирующей области, первичные данные из ряда родственных геномов сопоставляют друг с другом (рис. 1). Как правило, ген считают принадлежащим к обобщенному регулону, когда потенциальные сайты связывания встречаются в трех и более геномах перед соответствующими генами. Тем не менее, это число не является однозначно определенным и зависит от количества анализируемых геномов и степени их родства. За базовый геном обычно принимается тот, из которого были взяты сайты связывания для построения матрицы позиционных весов.

Геном I

потенциальный член регулона

Рисунок 1. Схема подхода, основанного на сравнении геномов. На схеме гены изображены стрелками, пунктирной линией соединены ортологичные гены, потенциальные сайты связывания отмечены звездочками. Знаком "+" обозначены случаи, когда гены рассматривают как потенциальные члены регулона; знаком "-" - когда гены считают перепредсказанными членами регулона; знаками "+?" - случаи, свидетельствующие о неоднозначности ответа, и как следствие, о необходимости дополнительных исследований.

В качестве недостатка метода проверки соответствия можно указать возможность того, что ген утратил регуляцию или отсутствует непосредственно в базовом геноме по сравнению с ортологичными генами из других родственных геномов. Для выявления подобных случаев применяют модифицированный метод проверки соответствия. При этом первичные данные из всех возможных пар геномов, принадлежащих одной таксономической группе, сравнивают друг с другом. В случае выявления нового потенциального члена обобщенного регулона проверяют наличие консервативного сайта связывания в 5'-некодирующих областях его ортологов из других таксономических групп.

Оценка предсказания алгоритмов: коэффициент Жаккарда <2 и коэффициент перекрытия сегментов С

В основе исследования лежат следующие предположения:

- в группе близкородственных белков должна сохраняться структура белка и, следовательно, положение трансмембранных сегментов (ТМ-сегментов);

- в паре выравненных близкородственных белков ТМ-сегменты с хорошей точностью будут проецироваться один на другой.

Для оценки предсказания алгоритмов выбрали две величины: коэффициент Жаккарда (0 и коэффициент перекрытия сегментов (С) (рис. 2).

Сравнение предсказаний поаминокислотно проводили с помощью коэффициента Жаккарда. Для каждой пары выравненных белков его определяют как размер пересечения предсказанных ТМ-сегментов, поделенный на размер их объединения. Точнее, пусть К - число выравненных аминокислотных остатков, предсказанных как входящие в ТМ-сегменты в обоих белках, и - число аминокислотных остатков, входящих в ТМ-сегмент хотя бы в одном из белков, тогда:

2 = к/и.

г

Рисунок 2. Подсчет величин Q и С. Черным цветом обозначены ТМ-сегменты, серым цветом обозначены петли двух выравненных ортологичных белков. L, -длина сегмента /', Lj - длина сегмента j, Ку - размер перекрытия сегментов i и j, Uy - размер объединения сегментов /' и у.

Коэффициент перекрытия сегментов С определяли как долю ТМ-сегментов, присутствующих в паре сравниваемых белков. Обозначим через щ и и2 число TM-сегментов, предсказанных для первого и второго белка соответственно. Пусть /' = 1,..., пи j = 1,..., п2 - номер TM-сегмента в первом и втором белке, соответственно. Рассмотрим все пары TM-сегментов ij, проекции которых перекрываются хотя бы по одному аминокислотному остатку. Введем величину Vy, показывающую частичное перекрытие сегмента i по отношению к сегменту j. Будем принимать Vy = 1, если хотя бы половина сегмента i перекрывается с сегментом j, в противном случае будем принимать V{j = 0. Иначе говоря, пусть L/ - длина сегмента /, Lj - длина сегмента j, и пусть Кц -размер перекрытия сегментов /' и j. Тогда:

V,j= 1, если Ky/L, > 0,5, Vy = 0, если Ку/Lj < 0,5.

Аналогично определяется частичное перекрытие сегмента j по отношению к сегменту i. Поскольку, вообще говоря, L, Ф Lj, то Vy ± Vß.

После этого для пары белков коэффициент перекрытия сегментов С вычисляется как сумма локальных перекрытий для всех пар ТМ-сегментов, поделенная на общее предсказанное число ТМ-сегментов:

С = Ъ/Уу+ VjJ/fa +П2).

Если предсказания для двух родственных белков схожи, то величины Q и С должны быть близки к 1,

Глава 3. Результаты и обсуждение

Построение матрицы позиционных весов для регулона FadR

Первоначально, опираясь на литературные данные, были выбраны гены участники метаболизма жирных кислот (ЖК): fabA, fabB, fadB, fadD, fadL - а также репрессор глиоксилатного пути iclR, экспрессия которых контролируется регулятором FadR. Для построения МПВ выбрали 5'-некодирующие области этих генов из Е. coli. Матрица графически представлена в виде диаграммы ЛОГО на рис. 3.

m иэ

Рисунок 3. ЛОГО для поиска сигнала ИасШ

Сайт связывания сигнала РасШ представляет собой семнадцатибуквенную нестрогую палиндромную последовательность со спейсером в 1 нуклеотид.

Построение матрицы позиционных весов для регулона FabR

Основой построения МПВ послужили 10 сайтов связывания FabR перед

генами fabA, fabB и yqfA из семи бактериальных геномов (Е. coli, Н. influenzae,

A. actinomycetemcomitans, P. aeruginosa, V. cholerae, S. putrefaciens, Y. pestis),

описанных в литературе. Матрица графически представлена в виде диаграммы

ЛОГО на рис. 4. 2-1

о-1

5'

Рисунок 4. ЛОГО для поиска сигнала ГаЬЫ.

Сайт связывания сигнала ГаЬЯ представляет собой восемнадцатибуквенную нестрогую палиндромную последовательность со спейсером в 2 нуклеотида.

Далее был проведен анализ 35 полноразмерных геномов из следующих групп у-протеобактерий, в которых сохраняются ортологи РаЬЯ: Аеготопас1а1ез, Еп1егоЬас1епа1ез, Ра81еиге11а1ез, РэеискипопасЫез, У1Ьгюпа1ез, ХапШотопасЫеБ. После этого с помощью полученной МПВ провели поиск генов, ортологичных генам /аЬА, /аЪВ, у$А, и потенциальных сайтов связывания, расположенных в 5'-некодирующих областях этих генов в геномах каждой из вышеперечисленных групп у-протеобактерий. На основе полученных сайтов связывания построили МПВ отдельно для каждой группы у-протеобактерий.

В связи с тем, что для группы ХапЛотопаёа1ез не было выявлено потенциальных сайтов связывания, расположенных в 5'-некодирующих областях генов /аЬА, /аЬВ, уц[А, для ее исследования использовали МПВ, полученную ранее на основании 10 сайтов связывания ГаЬЯ описанных в литературе. Поскольку группа Аеготопас1а1ез была представлена только двумя геномами, для построения МПВ к полученным предсказанным сайтам связывания добавили 10 сайтов связывания, полученных на основе литературных данных. Дубликаты потенциальных сайтов связывания удаляли с целью улучшения МПВ.

Анализ регулонов метаболизма жирных кислот

Анализ регулона FadR

Для исследования были выбраны следующие геномы у-протеобактерий, полная или предварительная нуклеотидная последовательность которых была известна на момент проведения исследования: Е. coli (Eco), H. influenzae (Hin), V. cholerae (Vch), Y. pestis (Ype).

Прежде всего, убедились в том, что в этих геномах сохраняются ортологи FadR. Затем, используя процедуру попарного сравнения бактериальных геномов, провели сравнительный анализ регулона FadR. В качестве базового генома использовали геном Е. coli как наиболее хорошо изученный.

В силу того, что на момент проведения исследования число отсеквенированных геномов было ограничено, ген рассматривали как потенциальный член регулона FadR, если сильный сайт сохранялся по крайней мере перед двумя ортологичными генами из четырех рассмотренных геномов.

Помимо уже известных генов, использованных при построении МПВ, выявлены новые потенциальные члены регулона FadR (таблица 1).

Таблица 1. Новые потенциальные члены

регулона

Геном Ген Позиция Вес Сайт

Eco fadlJ (Ö2342-41) -42 4.46 AtCaGGTCaGACCAcTT

Hin 0 - - -

4S Vch fadlJ - - -

1 Ype fadlJ -67 4.72 AtCaGGTCaGACCtGTT

Eco fadE (yafH) -37 4.09 AAgTGGTCaGACCtccT

Hin 0 - - -

£ Vch fadE -83 3.95 AACTGGTtaGACCAcTa

Ype fadE -37 4.35 AACaGGTCaGACCtccT

Eco fadH -47 4.53 AACTcaTCCGACCAcaT

$ Hin 0 - - -

1 Vch VC1993 -41 4.08 ttCTGGTCaGACCAtaT

Ype fadH -83 4.53 AtCTcaTCCGACCAcTT

FadR

Примечание: сайты с порогом выше 3.90 рассматривали как значимые

Так, проведенный анализ оперона Ь2342-Ь2341 выявил, что его гены являются паралогами генов, образующих оперон fadBA, который кодирует мультиферментный комплекс FadAB, обладающий пятью различными ферментативными активностями. Нами было показано, что оба эти оперона содержат сильный сайт связывания в регуляторной области. Впоследствии эти данные были подтверждены экспериментально, и гены, составляющие оперон Ь2342-Ь2341, получили название fadlJ. Следует отметить, что мультиферментный комплекс FadAB принимает участие в катаболизме длинноцепочечных ЖК как в аэробных, так и в анаэробных условиях, а мультиферментный комплекс FadlJ — в основном в анаэробных условиях.

Ген уа/Н, кодирующий ацил-СоА-дегидрогеназу, также имеет сильный сайт в 5'-некодирующей области в геноме Е. coli. Кроме того, в геномах Y. pestis

и V. cholerae выявлены ортологн yqfH, сохраняющие в 5'-некодирующей области сильный и слабый потенциальные сайты, соответственно. Известно, что в ß-окислении длинноцепочечных ЖК ген fadE кодирует ацил-СоА-дегидрогеназу. Следовательно, ген yafll описан ранее в литературе как fadE. Эти данные также впоследствии были подтверждены экспериментально.

Ген fadH кодирует 2,4-диеноил-редуктазу, катализирующую деградацию ненасыщенных ЖК, у которых двойная связь приходится на четное число атомов углерода. Ортологи этого гена обнаружены во всех геномах рассматриваемой группы. Кроме того, в геномах Е. coli и У. pestis выявлен сильный потенциальный сайт связывания FadR в 5'-некодирующей области исследуемого гена, что позволяет сделать вывод о регуляции fadH этим репрессором. Наличие потенциального сайта связывания хорошо согласуется с функцией FadR как репрессора деградации длинноцепочечных ЖК. Полученные данные о регуляции fadH репрессором FadR впоследствии были также подтверждены экспериментально.

Проведенное исследование позволяет предположить, что FadR регулирует все стадии окисления длинноцепочечных ЖК и частично биосинтез ЖК.

Анализ регулона FabR

Прежде всего, из следующих групп у-протеобактерий: Aeromonadales, Enterobacteriales, Pasteurellales, Pseudomonadales, Vibrionales, Xanthomonadales — выбрали полноразмерные геномы, в которых сохраняются ортологи FabR. Далее, используя специфические МПВ, провели сравнительный анализ регулона FabR, применяя метод попарных сравнений. Исследование проводили отдельно для каждой группы у-протеобактерий.

Ген рассматривали как потенциальный член регулона, если сайт сохранялся по крайней мере перед тремя ортологичными генами внутри исследуемой группы. Исключение составляла группа Aeromonadales: в силу того, что она была представлена только двумя геномами, ген относили к потенциальному члену регулона, если сайт сохранялся перед обоими ортологичными генами внутри этой группы. Кроме того, в связи с тем, что А. hydrophila, А. salmonicida и Е. coli представляют собой близкородственные организмы и число геномов в группе Aeromonadales сильно ограничено, то при исследовании данной группы дополнительно проводили сопоставление с результатами из Е. coli.

В у-протеобактериях потенциальные сайты связывания FabR перед исследуемыми генами fabA, fabB и yqfA в целом сохраняются, за исключением группы Xanthomonadales. Следует отметить, что гены, ортологичные генам fabA, fabB, yqfA в группе Xanthomonadales, сохраняются, при этом гены fabA vi fabB образуют оперон fabAB, потенциальный сайт связывания ни перед геном yqfA, ни перед опероном fabAB не выявлен, новых потенциальных членов регулона не обнаружено.

Потенциальный сайт связывания РаЬЯ, расположенный в 5'-некодирующией области гена /аЬА, в геномах оставшихся пяти групп у-протеобактерий в целом сохраняется.

Потенциальный сайт связывания РаЬЯ, расположенный в 5'-некодирующей области гена /аЬВ, в группах Еп1егоЬас1епа1ез (таблица 2) и Раз1еиге11а1ез в основном сохраняется. В группе Рзеис1отопас1а1е5 гены /аЬА и [аЬВ образуют оперон /аЬАВ, перед которым сохраняется потенциальный сайт связывания РаЬЯ. В группах Aeromonadales и УШгюпаЬв ген /аЬВ сохраняется, но потенциальный сайт связывания перед ним не обнаружен.

Для группы Еп1егоЬайепа1ез показали расположение сайтов связывания БаЬЯ и FadR в 5'-некодирующиих областях генов /аЬА и /аЬВ (таблица 2, рис. 5А, 5Б). Результаты множественного выравнивания свидетельствуют о том, что участки, совпадающие с сайтами связывания БаЬЯ и FadR, характеризуются хорошей консервативностью и расположены на расстоянии 1 нуклеотид друг от друга, как и описано в литературе.

Таблица 2. Потенциальные сайты связывания РаёЯ и РаЬЯ для генов /аЬА и /ЪЬВ (группа Еп1егоЬа^ег1а1ез)__

Геном Ген Поз. Вес Сайт РайИ Поз. Вес Сайт РаЫЧ

Есо ГаЬА -73 5.00 ААСТСаТСССАС^СГТ -55 6.14 АСССТАСАсСТСКаССТ

Ско СКО 02114 -75 5.00 ААСТСаТСССАС^СГТ -57 6.14 АСССТАСАсСТСТАаССТ

Евр ЕЫ638 1466 -73 5.00 ААСТСаТСССАС^СТТ -55 6.14 АСССТАСАсСТС1^аССТ

Еат ГаЬА -74 4.35 Ад^СаТСССАС^СГТ -56 5.87 1СС1:ТАСААсТСТааССТ

Крп ГаЬА -74 5.00 ААСТСаТСССАС^СГТ -56 6.05 АОСИАСАсСТОТ^аССТ

Р1и ГаЬА - - - -56 6.24 АС СС Т АС ААС ТСТАС^СТ

75 веп БРАВ 02491 -75 5.00 ААСТСаТСССАС^СГТ -57 6.14 АСССТАСАсСТС1ТаССТ

•а 3(у ГаЬА -73 5.00 ААСТСаТСвОАС^СГТ -55 6.14 АСССТАСАсСТСГЬаССТ

Брг врго 1751 -73 4.51 ддСТОаТССОАС^СГТ -55 6.32 АСССТАСАсСТСТАаССТ

ГаЬА -73 5.00 ААСТСаТСССАС^СГТ -55 6.14 АСССТАСАсСТСТАаССТ

вэо ГаЬА -73 5.00 ААСТСаТСССАС^СТТ -55 6.14 АСССТАСАсСТСТАаССТ

Эд1 эвюге - - - - - -

Уеп ГаЬА -73 4.30 ддСТСаТСССАС^СсТ -55 6.28 АСССТАСАСсТСТАСССТ

Уре ГаЬА -73 4.02 ддСТааТСССАС^СсТ -55 6.28 АСССТАСАСсТСТАСССТ

Есо 1аЬВ -82 4.51 ддСТСаТССОАС^СГТ -64 6.32 дСССТАСААСТСТАСССТ

Ско СКО 00462 -84 4.51 ддСТСаТСССАС^СГТ -66 6.32 дСССТАСААСТСТАСССТ

Еэр ЕШ638 2871 -81 4.51 ддСТСаТСССАС^СТТ -63 6.49 АСССТАСААСТСТАСССТ

Еат ГаЬВ -81 4.79 АдСТСаТССОАС^СГТ -63 6.14 дСССТАСААсТСТАаССТ

Крп ГаЬВ -82 4.44 д1:СТСаТСССАС«СТТ -64 6.32 дСССТАСААСТСТАСССТ

Р1и ГаЬВ -95 4.09 1;сСТСаТСССАС«СТТ -77 6.49 АСССТАСААСТСТАСССТ

ю Эеп БРАВ 00592 -85 4.51 ддСТСаТСССАС^СГТ -67 6.32 дСССТАСААСТСТАСССТ

£ Э1у ГаЬВ -83 4.51 ддСТСаТССОАС^СГТ -65 6.32 дСССТАСААСТСТАСССТ

Эрг Брго 3368 -83 4.40 cgCTGaTCGGACttGTT -65 6.11 дСССТАСА! сТСТАСССТ

БЯ ГаЬВ -82 4.51 ддСТСаТСССАС^СГТ -64 6.32 дСССТАСААСТСТАСССТ

Бэо ГаЬВ -82 4.51 ggCTGaTCGGACttGTT -64 6.32 дСССТАСААСТСТАСССТ

Эд1 8в1623 -79 4.33 ctCTGaTCGGACttGTT -61 6.10 AGCtTACAtcTGTAaGCT

Уеп ГаЬВ -86 4.40 cgCTGaTCGGACttGTT -68 6.23 дСССТАСААСТСТАСССТ

Уре ГаЬВ -86 4.40 cgCTGaTCGGACttGTT -68 6.23 дСССТАСААСТСТАСССТ

Примечание: сайты FadR с порогом выше 3.90 и сайты FabR с порогом выше 4.90 считали значимыми

А

FadR FabR

aactggtc 6accagtt agcgtaca tgtacgct

Kpn I f abA GGGACAAGTTCTÍRACTSATCGSACTTGM'ckGCTTACACGTGTTAGC!ÍATCCTGCGTCCC

Esp I Ent638_14 66 TGGTTTAGTCCCM.CTGATCGGACTTGIICAGCGTACACGTGTTAGCÍATCCTGCGTGCT

sen ispab_02491 gcttttattccgKactgatcggacttgttcagcgtacacctgttagctatcctgcgtgct

Sty I fabA GCTTTTATTCCGkACTGATCGeACTTGT®C».GCGTACACGTGTTAeC5ÍATCCTGCGTGCT

Cko I СКО_02114 TGGTTTATACCGAACTGATCGGaCTTeMCAGCGTACACGIGTTAGCIATCCTGCGTGCT

S so I fabA TGGTTTATTCCGkACTGATCGGACTTGTSckGCGTACACGIGTTAGC¿ATCCTGCGTGCT

Sfl I fabA TGGTTTATTCCGkACTGATCGGACTTGMCAGCGTACACGTGTTAGCÉATCCTGCGTGCT

Eco I fabA TGGTTTATTCCGkACTGATCGGACTTGTTCAGCGTACACGTGTTAGCTATCCTGCGTGCT

Spr I Spro_17 51 -n-™»^ . --i-—.—~ —-------- -- »

Yen IfabA YpeIfabA

tggttcaaccagggctgatcggacttgctcagcgtacagctgtacgctattctgcgcact tggttcaaccagbgcíaatcg^cttgctcagcgtacagctgtacgctfattctgcgcact

б

FadR FabR

aactggtc gaccagtt agcgtaca tgtacgct

-----------reeigs5¡5sa£fwficRge^cxeis5¥®regeiAAAGTGCTACATA

-----------;tctgatcggacttgttcagcttacätctgtaagc7!aaagtgagtgac-

a----------agctgatcggacttgttcggcgtax»actgtaagcíaaagtgtttccc-

t----------ggctgatcggacttgttcagcgtacaägtgsacgcJattgtgccagtc-

t----------btctgatcggacttgtícpgcgtacaagigtacgciittgtgcgacac-

t----------bgctgatcggacttgt1|cí3gcgtacañbtgtacgciattgtgc-attc-

t----------EGCTGATCGGACTTGTÍcbGCGTACaAGTGTACeC!íattgtgc-attc-

t----------GGCTGATCGGACTTGTTCBGCGTACAAGTGTACGCÍATTGTGC-attc-

t----------ggctgatcggacttgttcggcgtacaagtgtacgcíattgtgccaatc-

т----------pgctgatcggacttgttcggcgtacaagtgtacgc5|attgtgccaatc-

т----------ggctgatcggacttgticggcgtacaagtgtacgcíattgtgcgagtc-

aagctgaaaaacgctgatcggacttgtícggcgtacatctgtacgc^aaagtgcgatgc-tgggtatattacgctgatcggacttgt^cbgcgtacaacigtacgciaaagtgcgttgc-

TGGCTATATTACOTTGÄTCGeMTOGgcfeGCGT^^

**************** ** **** **** **** ***

Рисунок 5. Множественное выравнивание 5'-некодирующих областей генов fabA (А) и fabB (Б) для группы Enterobacteriales. Показано сохранение сайтов связывания FabR и FadR. Сайты выделены серым цветом, полужирным шрифтом обозначены позиции, совпадающие с консенсусом.

Потенциальный сайт связывания FabR, • расположенный в 5'-некодирующей области гена yqfA, в геномах группы Aeromonadales, Enterobacteriales, Pseudomonadales и Vibrionales в целом сохраняется, в группе Pasteurellales ген yqfA сохраняется, но потенциальный сайт связывания перед ним не выявлен. Следует отметить, что дополнительное сопоставление результатов, полученных для двух исследуемых геномов группы Aeromonadales, с результатами из Е. coli, показало хорошую консервативность сайта связывания FabR, расположенного в 5'-некодирующих областях генов fabA и yqfA.

Кроме того, в четырех группах у-протеобактерий (Aeromonadales, Enterobacteriales, Pasteurellales, Vibrionales) выявлен новый потенциальный член регулона FabR ген IcfH (long-chain-fatty-acid-CoA ligase), кодирующий СоА-лигазу длинноцепочечных ЖК, которая принимает участие в биосинтезе ЖК (таблица 3). При этом следует подчеркнуть, что ген IcfH отсутствует в геноме Е. coli.

PlulfabB

Sgl ISG1623

Earn IfabB

EspIEnt638_2871

KpnIfabB

Eco IfabB

SsolfabB

SflIfabB

Sen|SPAB_00592

StylfabB

CkoICKO_004 62

SprISpro_3368

Yen IfabB

YpeIfabB

Таблица 3. Новый потенциальный член регулона FabR, ген IcfH

Геном | Ген IcfH | Позиция | Вес Сайт

Aeromonadales

A. hydrophila AHA 0722 -97 5.64 gGCGAACActTGTaaGCT

A. salmonicida ASA 0719 -96 5.83 AGCGAACActTGTaaGCT

Enterobacteriales

P. luminescens plu3671 -113 5.84 AGCtaACAccTGTAaGCT

S. proteamaculans Spro 0747 -83 4.92 AGt aaACAcGTGTAaGCT

Y. enterocolitica YE0656 - - -

Y. pestis YP00537 -85 5.43 AGtGaACAccTGTACGCT

Pasteurellales

A. pleuropneumoniae APL 1413 -40 6.07 AGCGAACAgtTGTaAGCT

H. influenzae | HI0002 -21 5.37 AGCGcACAAcTGTTcGCT

M. succiniciproducens | MS2265 -43 5.71 AGCGtACAAaTGTaAaCT

P. multocida \ PM0925 -57 6.58 AGCtAACAAGTGTaAGCT

Vibrionales

P. profundum PBPRA0424 -36 6.15 AGCTTACAaGTGTAaGCT

V. cholerae VC2484 -30 5.52 gGCTTACAgGTGTAaGCT

V. fischeri VF2264 -32 5.68 AGCTTACACcTGTAaGCc

V. harveyi VIBHAR 00824 -36 5.11 AGCTTACgCcTGTAaGCc

V. parahaemolyticus VP0351 -59 -36 5.27 5.11 tGaGTACACtTGTtCGCT AGCTTACgCcTGTAaGCc

V. vulnificus | VV1_0649 -30 5.28 AGCTTACAtGTGTAaGCc

Примечание: в таблице приведены данные только для геномов, в которых выявлены ортологи гена 1с/Н. Сайты с порогом выше 4.90 считали значимыми.

Ортологи этого гена обнаружены в геномах A. hydrophila, A. salmonicida (Aeromonadales), P. luminescens, S. proteamaculans, Y. enterocolitica, Y pestis (Enterobacteriales), P. profundum, V. cholerae, V. fischeri, V. harveyi, V. parahaemolyticus, V. vulnificus (Vibrionales). Потенциальный сайт связывания FabR, расположенный в 5'-некодирующией области гена IcfH, сохраняется во всех перечисленных геномах, за исключением Y. enterocolitica, а в геноме V. parahaemolyticus выявлен дополнительный сайт связывания FabR. Следует отметить, что в группе Vibrionales гены, ортологичные гену IcfH, обнаружены во всех исследуемых геномах.

Обсуждение результатов анализа регулонов метаболизма жирных кислот

Обсуждение результатов анализа регулона FadR

В ходе проведенного исследования было установлено, что в состав регулона FadR входят гены, описанные ране в литературе: fabA, fabB, fadD, fadL, iclR - и гены, образующие оперон fadBA. Кроме того, выявлены новые члены регулона FadR: ген fadE (yafH) и гены, входящие в состав опрона fadlJ, а также впервые было показано наличие потенциального сайта связывания FadR в 5'-некодирующей области гена fadH.

Впоследствии в работе А.Е. Казакова и соавторов было показано, что регулон FadR сохраняется в следующих четырех группах у-протеобактерий:

ЕШегоЬасЛепакз, Ра51еиге11а1ез, У1Ьпопа1ез и Alteromonadales. При этом анализ выявил высокий уровень консервативности регулона РасШ. в группе ЕщегоЬайепакз, в то время как его состав в других группах у-протеобактерий в некоторой степени отличался.

Кроме того, в группе ЕШегоЬайепакз дополнительно выявлен ген /ЫМ (уЬаЩ и обнаружен потенциальный сайт связывания FadR в 5'-некодирющией области оперона асеВАК в геноме У. резИя, а в группе УШпопакэ выявлен ген ркВ. В нашем исследовании эти случаи были пропущены из-за ограниченного числа геномов. Таким образом, увеличение числа отсеквенированных геномов позволило выявить дополнительных участников данного метаболического пути.

Обсуждение результатов анализа регулона РаЬИ

В ходе проведенной работы было установлено, что в состав регулона РаЬЯ входят три ключевых гена/аЬА, /аЬВ, у^А, известных ранее. Следует отметить, что именно перед этими генами сайты связывания РаЬЯ подтверждены экспериментально в геноме Е. соП. Также выявлен новый потенциальный член регулона, ген 1с/Н, кодирующий СоА-лигазу длинноцепочечных ЖК (таблица 3). Других генов в составе исследуемого регулона не обнаружено.

он о

сн3-(сн;,)5-сн2-с-сн2-с-3-аср

н

р-гидроксидеканоил-АПБ

=abÄ); FabZ

' но (flb^ М Н о

ch3-(ch2)6-ch2-c=c-c-s-acp ■--► ch3-{ch2)5-c=c-ch2-c-s-acp

^ цос-З-деценоил-АПБ

трзнс-2-деценоил-АПБ

(|äb|);FabF| У У Я

4---у i ch3-(ch2)5-c=c-ch2-c-ch2-c-s-acp

О З-кето-цис-5-додеценоил-АПБ

ch3-(ch2)14-c-s-acp пальмитоил-АПБ

V V ^ .9

ch3-(ch2)5-c=c-{ch2)7-c-s-acp пальмитолеоил-АПБ

FabF

н н

ch34ch2)6-6=6-(ch2)9-ü-s-acp цис-ваценоил-АПБ

Рисунок 6. Схема ответвления биосинтеза ненасыщенных жирных кислот в Е. coli. Овалами выделены ферменты, кодируемые генами регулона FabR.

Кроме того, для группы Enterobacteriales показано, что сайты связывания FabR и FadR в 5'-некодирующиих областях генов fab А и fabB расположены вплотную друг к другу. Столь близкое взаимное расположение сайтов связывания FabR и FadR указывает то, что два фактора транскрипции, по всей видимости, не могут одновременно связываться с промотором каждого их этих генов. Соответственно, уровень экспрессии генов может fabA и fabB может контролироваться комбинационным переключением между транскрипционными факторами FabR и FadR.

Следует отметить, что гены fabA и fabB являются ключевыми генами биосинтеза ненасыщенных ЖК (рис. 6). Таким образом, можно предположить, что регулон с небольшим количеством генов необходим для осуществления баланса между насыщенными и ненасыщенными ЖК, соотношение которых определяет физические свойства мембраны, и зависит от уровня ферментов FabA и FabB в клетке.

Построение тестовой выборки

Тестовая выборки а-спиральных трансмембранных белков

Для построения тестовой выборки а-спиральных ТМ-белков из баз данных TCDB и TransportDB взяли всех представителей бактериальных транспортеров класса ТС.2.А по классификации Сайера. Начальная выборка составила 1312 белков из 101 семейства. С целью обогащения начальной выборки родственными, но неклассифицированными белками, для каждой аминокислотной последовательности провели поиск гомологов в бактериальных геномах базы данных ERGO с использованием программы BLAST.

Поиск гомологов проводили только в относительно завершенных геномах при наложении следующих условий: Е-value < Ю~10, identity (величина идентичности) > 30%. За счет этой процедуры начальная выборка белков расширилась на 860 гомологичных белков и суммарная выборка, полученная на текущем этапе, составила 2172 белка.

Построение кластеров

Первоначально набор полученных аминокислотных последовательностей разделяли на кластеры согласно их эволюционному родству с нижним порогом идентичности 30%. За меру эволюционного расстояния принимали значения идентичности, полученные с использованием программы BLAST. Для этого были проведены все попарные сравнения аминокислотных последовательностей из суммарной выборки (2172 белка). Далее набор последовательностей разделяли на кластеры методом ближайшего соседа (т.е. методом выделения в графе компонент связности) с нижним порогом идентичности 30%. За нижний порог идентичности принимали величину, с которой сравнивают величины идентичности между каждыми двумя последовательностями. Далее были рассмотрены последовательности, процент идентичности которых лежал в двух рассматриваемых диапазонах: 40-49% и 50-59%. Суммарная выборка

составляла 2356 пар белков для первой группы (40-49%) и 909 пар белков для второй группы (50-59%).

Тестовая выборка белков типа р-бочонки

При построения тестовой выборки белков типа ß-бочонки из базы данных TCDB для каждого семейства взяли по одному представителю бактериальных транспортеров класса ТС.1.В по классификации Сайера. Первоначально выбирали белки только из Е. coli, белки из других геномов не рассматривали. Для полученных белков провели поиск кластеров ортологичных генов COG из грам-отрицательных бактерий. Белки, длина аминокислотной последовательности которых составляла менее 80% от длины аминокислотной последовательности белка, по которому искали кластер, исключали из выборки. Итоговая выборка составляла 274 белка из 15 COG, которые образовывали 5831 пару гомологичных белков. В связи с тем, что количество белков типа ß-бочонки сильно ограничено, паралогичные белки не удаляли и не устанавливали ограничения на порог идентичности. Исследования проводили для трех диапазонов идентичности: 1-50%, 51-100% и 1-100%.

Сравнительный анализ алгоритмов

Как в случае с а-спиральными TM-белками, так и в случае с белками типа ß-бочонки сравнение проводили для всех пар белков, принадлежащих одному кластеру. Множественное выравнивание строили для аминокислотных последовательностей, принадлежащих каждому кластеру.

Для каждого алгоритма использовали значения, предложенные интернет-сервером по умолчанию. TM-сегменты предсказывали независимо для каждой пары белков. Пересекающиеся и соприкасающиеся TM-сегменты принимали за один сегмент. В случае, когда по результатам работы алгоритма PRED-TMBB следовало, что данный белок не относится к белкам типа ß-бочонок, запрос повторяли с указанием отнести данный белок к белкам типа ß-бочонок.

Сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках

На этом этапе работы проводили анализ 10 алгоритмов, реализованных в виде интернет-серверов, предсказывающих положение TM-сегментов в а-спиральных белках: DAS, НММТОР 2.0, PRED-TMR, ТМАР, ТМНММ 2.0, TMpred, TopPred II, PHDhtm, PSORT, SOSUI. Среднеарифметические значения коэффициента Жаккарда Q, коэффициента перекрытия сегментов С и величины стандартного отклонения а для каждого алгоритма представлены в таблице 4.

Таблица 4. Среднеарифметические значения коэффициента Жаккарда Q, коэффициента перекрытия сегментов С и величины стандартного отклонения а

ID 40-49% 40-49% 50-59% 50-59%

Алгоритм Q±o С±а Q±a С±а

PHDhtm 0,88 ±0,12 0,94 ±0,11 0,89 ±0,12 0,94 ±0,11

НММТОР 2.0 0,73 ±0,12 0,93 ±0,12 0,76 ±0,13 0,94 ±0,13

ТМНММ 2.0 0,72 ±0,13 0,92 ±0,12 0,76 ±0,11 0,93 ±0,12

TMpred 0,70 ±0,10 0,91 ±0,08 0,74 ±0,10 0,93 ± 0,08

TopPred II 0,71 ±0,12 0,89 ±0,10 0,76 ±0,13 0,91 ±0,09

PRED-TMR 0,69 ±0,13 0,89 ±0,12 0,73 ±0,13 0,90 ±0,12

SOSltl 0,69 ±0,11 0,88 ±0,13 0,72 ±0,11 0,89 ±0,13

ТМАР 0,64 ±0,10 0,85 ± 0,11 0,67 ±0,11 0,87 ±0,10

DAS 0,64 ±0,11 0,83 ±0,10 0,69 ±0,10 0,87 ± 0,09

PSORT 0,63 ±0,14 0,84 ±0,14 0,69 ±0,14 0,86 ±0,14

Как видно из таблицы 4, наиболее самосогласованные результаты предсказаний TM-сегментов получены с использованием алгоритма PHDhtm, за которым следуют НММТОР и ТМНММ. Сопоставление результатов нашей работы с результатами, полученными другими группами исследователей, позволило установить следующее.

Apweiler и соавт. получили лучшие результаты для алгоритма ТМНММ, предсказания алгоритмов PHDhtm и НММТОР в этом исследовании показали менее хорошие результаты. В работе Rost и соавт. лучшие результаты получены для PHDhtm и НММТОР, в то время как алгоритм ТМНММ показал средние результаты предсказаний.

Как в нашей работе, так и в работе Apweiler и соавт. алгоритмы TMpred и TopPred II попадают в середину списка.

Наименее согласованные результаты предсказаний в нашем исследовании получены для группы алгоритмов TMAP, DAS и PSORT. При этом DAS продемонстрировал средний уровень предсказания в работах Apweiler и соавт. и Rost и соавт.; ТМАР попадает в середину списка в работе Apweiler и соавт. Оставшиеся алгоритмы не были рассмотрены в цитируемых работах.

Sansom и соавт. оценивают предсказания алгоритмов ТМНММ, НММТОР, ТМАР и SPLIT как достаточно хорошие, при этом ни одна из рассмотренных программ не была выделена как лучшая.

Таким образом, несмотря на использование различных критериев оценки качества работы алгоритмов, результаты сравнительного анализа, продемонстрированного в данной работе, в целом согласуются с результатами работ, полученными тремя независимыми группами исследователей: Apweiler, Rost и Sansom с соавторами.

Сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в белках типа р-бочонки

На следующем этапе работы провели анализ восьми алгоритмов, реализованных в виде интернет-серверов: B2TMPRED, B2TMR, HMM-B2TMR, PRED-TMBB (N-best method), PRED-TMBB (posterior decoding method), PRED-TMBB (the Viterbi method), PROFtmb и TMBETA-NET.

В таблице 5 представлены среднеарифметические значения коэффициента Жаккарда Q, коэффициента перекрытия сегментов С и величины стандартного отклонения о для каждого алгоритма.

Таблица 5. Среднеарифметические значения коэффициента Жаккарда коэффициента перекрытия сегментов С и величины стандартного отклонения а для различных диапазонов идентичности белков Ю__

ID 1-50% 51-100% 1-100%

Алгоритм C±a Q±o C±<r Q±o C±o

B2TMR 0,67 ±0,15 0,84 ±0,11 0,85 ±0,18 0,93 ±0,11 0,68 ±0,15 0,84 ±0,11

PROFtmb 0,64 ± 0,15 0,82 ± 0,13 0,83 ± 0,19 0,92 ±0,13 0,64 ± 0,16 0,82 ±0,13

HMM-B2TMR 0,64 ± 0,16 0,82 ± 0,13 0,83 ±0,19 0,93 ±0,12 0,64 ±0,16 0,83 ±0,13

B2TMPRED 0,49 ±0,15 0,68 ±0,14 0,79 ±0,23 0,88 ±0,17 0,50 ±0,16 0,68 ±0,14

HMM-B2TMR 0,55 ± 0,26 0,71 ±0,31 0,70 ± 0,35 0,78 ± 0,35 0,55 ±0,27 0,71 ±0,31

PROFtmb 0,54 ± 0,26 0,70 ±0,31 0,70 ±0,35 0,78 ±0,35 0,55 ± 0,27 0,71 ±0,31

PRED-TMBB N 0,37 ±0,18 0,56 ± 0,24 0,67 ±0,27 0,78 ±0,25 0,38 ±0,19 0,57 ± 0,25

PRED-TMBB V 0,37 ±0,18 0,56 ±0,24 0,67 ± 0,27 0,78 ±0,25 0,38 ±0,19 0,57 ±0,25

PRED-TMBB P 0,37 ±0,17 0,56 ±0,23 0,66 ± 0,28 0,78 ±0,24 0,37 ±0,18 0,57 ±0,24

TMBETA-NET 0,36 ± 0,08 0,54 ±0,10 0,66 ±0,24 0,79 ±0,20 0,37 ±0,10 0,54 ±0,11

Примечание: PRED-TMBB N (N-best method), PRED-TMBB_V (the Viterbi method), PRED-TMBB_P (posterior decoding method). Полужирным шрифтом отмечены результаты для алгоритмов PROFtmb и HMM-B2TMR, если не учитывать белки, отнесенные к "нетрансмембранному" классу.

Наиболее согласованные предсказания получены для алгоритма B2TMR, за ним с небольшим отрывом следует B2TMPRED. Следует отметить, что по результатам работы алгоритмов HMM-B2TMR и PROFtmb рассматриваемые белки довольно часто попадали в "нетрансмембранный" класс. Таким образом, эти алгоритмы попадают в середину списка, несмотря на результаты, сопоставимые с B2TMPRED. Когда из тестовой выборки были удалены белки, отнесенные алгоритмом PROFtmb и алгоритмом HMM-B2TMR к "нетрансмембранному" классу, анализируемая выборка составила 4997 пар белков и HMM-B2TMR - 5018 пар белков, соответственно. При этом среднеарифметические значения коэффициентов Q и С улучшились и стали сопоставимы с результатами, полученными для алгоритма B2TMR, что отражено в таблице 5.

Серия алгоритмов PRED-TMBB и алгоритм TMBETA-NET завершают список. Следует подчеркнуть, что в результате работы алгоритмов группы PRED-TMBB рассматриваемые белки нередко соотносились с "нетрансмембранным" классом, а внутри самой группы алгоритмов PRED-TMBB получились результаты, схожие между собой.

В работе Hamodrakas и соавт. лучшие результаты предсказания получены для PRED-TMBB, HMM-B2TMR и PROFtmb, несколько хуже предсказания у B2TMPRED и TMBETA-NET. Следует отметить, что эти авторы не рассматривали алгоритм B2TMR.

Таким образом, результаты оценки работы алгоритмов, полученные нами и независимой группой исследователей в значительной степени схожи, несмотря на различные критерии оценки. Однако следует отметить, что для алгоритма B2TMPRED наши данные не согласуются с данными этой группы исследователей, а для алгоритмов PRED-TMBB и PROFtmb только результаты,

полученные нами после удаления белков, отнесенных алгоритмом к "нетрансмембранному" классу, сопоставимы с результатами, полученными этой группой исследователей. Вероятно, это связано с тем, что в работе Hamodrakas и соавт. тестовая выборка состояла всего из 20 белков с известной структурой, в то время как наша выборка включала в себя 5673 пары белков.

Обсуждение результатов сравнительного анализа алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках и в белках типа ß-бочонки

На основании проведенного нами исследования наиболее согласованные результаты предсказания TM-сегментов в а-спиральных белках получены с использованием алгоритма PHDhtm. За ним с небольшим отрывом следуют НММТОР и ТМНММ. В середину списка попадают алгоритмы TMpred и TopPred. Оставшиеся алгоритмы PRED-TMR, SOSUI, TMAP, DAS и PSORT завершают список.

Наиболее согласованные результаты для предсказания TM-сегментов в белках типа ß-бочонок получены для алгоритма B2TMR, а также для алгоритмов B2TMPRED, HMM-B2TMR, PROFtmb, которые несколько уступают ему. В результате работы последних двух алгоритмов белки типа ß-бочонок часто попадали в "нетрансмембранный" класс. В подобных случаях полезно отправить запрос другому алгоритму. Завершает список группа алгоритмов PRED-TMBB, которые также нередко относили белки типа ß-бочонок к "нетрансмембранному" классу.

Таким образом, на сегодняшний день предсказание TM-сегментов как в а-спиральных белках, так и в белках типа ß-бочонок по-прежнему остается сложной задачей. В важных случаях желательно использовать результаты предсказания нескольких алгоритмов, а для получения более качественного предсказания рекомендуется проанализировать не один белок, а все семейство его гомологов.

Выводы

1. Впервые выявлены три новых гена, регулируемые белком FadR:

- ген yafli, кодирующий ацил-СоА-дегидрогеназу, идентифицирован как ген, описанный ранее в литературе как fadE без привязки к геному;

- гены, входящие в состав оперона Ь2342-Ь2341, кодирующие ß-кетоацил-СоА тиолазу и 3-гидроксиацил-СоА дегидрогеназу, соответственно, которые впоследствии получили название fadIJ.

2. Впервые было показано наличие потенциального сайта связывания FadR в 5'-некодирующей области гена fadH, кодирующего 2,4-диеноил-СоА-редуктазу.

3. Показано, что белок FabR является регулятором генов fabA, fabB и yqfA, и выявлен новый член регулона ген IcfH, кодирующий СоА-лигазу длинноцепочечных жирных кислот.

4. Разработана методика тестирования алгоритмов, предсказывающих положение трансмембранных сегментов в трансмембранных белках, с использованием соображения консервативности вторичной структуры белков, и

на ее основе проведен сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в трансмембранных белках.

5. Показано, что среди алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках, наиболее самосогласованными являются алгоритмы PHDhtm, НММТОР и ТМНММ.

6. Показано, что среди алгоритмов, предсказывающих положение трансмембранных сегментов в белках типа р-бочонок, наиболее самосогласованными являются алгоритмы B2TMR, B2TMPRED и HMM-B2TMR.

Список работ, опубликованных по теме диссертации Публикации в научных журналах

1. Садовская Н.С., Лайкова О.Н., Миронов А.А., Гельфанд М.С. Изучение регуляции метаболизма длинноцепочечных жирных кислот с использованием компьютерного анализа полных бактериальных геномов // Молекулярная биология. - 2001 - Т. 35 - №. 6 - С. 1010-1014.

2. Садовская Н.С., Сутормин Р.А., Рахманинова А.Б., Гельфанд М.С. Сравнительный анализ программ, предсказывающих трансмембранные сегменты в трансмембранных белках // Информационные процессы. - 2002 -Т. 2 - №. 1-С. 96-99.

3. Sadovskaya N.S., Sutormin R.A., Gelfand M.S. Recognition of transmembrane segments in proteins: review and consistency-based benchmarking of internet servers // J. Bioinform. Comput. Biol. - 2006 - V. 4 - N. 5 - P. 1033-1056.

4. Sadovskaya N.S., Gelfand M.S. Benchmarking of programs that predict the position of transmembrane segments in beta-barrel proteins // Biophysics. - 2008 - V. 53 -N.2-P. 134—139.

Публикации в сборниках трудов конференций

1. Sadovskaya N.S., Sutormin R.A., Rakhmaninova A.B., Gelfand M.S. Benchmarking of programs for recognition of transmembrane segments in transporter proteins // Proc. of The Third International Conference on Bioinformatics of Genome Regulation and Structure. - 2002 - V. 3 - P. 116-117.

2. Sadovskaya N.S. Comparative analysis of servers for prediction transmembrane domains // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2003 - P. 206-207.

3. Sadovskaya N.S. Benchmarking of transmembrane helix prediction servers // Proc. of The Fourth International Conference on Bioinformatics of Genome Regulation and Structure. - 2004 - V. 1 - P. 358-360.

4. Садовская H.C. Анализ программы HMM-B2TMR на примере белка FadL и его ортологов // Школа молодых ученых "Сравнительная геномика". - 2005 -Т. 1 - С. 16-17.

5. Sadovskaya N.S. Analysis of a method HMM-B2TMR using a protein FadL and its orthologs. Comparative genomics of the fatty acids biosynthesis in gamma-

proteobacteria // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2005 - P. 324-327.

6. Садовская H.C. Сравнительный анализ программ, предсказывающих положение трансмембранных сегментов в белках типа бета-бочонок // Сборник трудов 30-й конференции молодых ученых и специалистов ИППИ РАН "Информационные технологии и системы ИТИС'07". - 2007 - С. 316-320.

7. Sadovskaya N.S. Benchmarking of internet servers for recognition of transmembrane segments in beta-barrel proteins from gram-negative bacteria // Proc. of the International Moscow Conference on Computational Molecular Biology. -2007-P. 268-270.

8. Sadovskaya N.S. Comparative genomics of the fatty acids biosynthesis in gamma-proteobacteria // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2009 - P. 319.

Благодарности

Автор выражает глубокую благодарность своему научному руководителю профессору, доктору биологических наук Михаилу Сергеевичу Гельфанду за чуткое научное руководство, помощь и поддержку в ходе выполнения научной работы; Всеволоду Юрьевичу Макееву за предоставленную возможность выполнить работу в лаборатории "Биоинформатика" Государственного научного центра "ГосНИИгенетика"; Андрею Александровичу Миронову, Александре Борисовне Рахманиновой, Роману Александровичу Сутормину, Алексею Евгеньевичу Казакову, Сергею Владимировичу Ковниру, Александру Владимировичу Фаворову, Дмитрию Александровичу Родионову, Илье Алексеевичу Жарову, Алексею Сергеевичу Шарыкину и Ольге Александровне Шарыкиной за участие, неоценимую помощь в работе, ценные советы и продуктивное обсуждение; всем сотрудникам, аспирантам, стажерам и студентам УНЦ "Биоинформатика" ИППИ РАН за поддержку и дружеское понимание. Автор выражает огромную благодарность своей семье и друзьям за любовь, поддержку, терпение, понимание и доброту при выполнении диссертации.

Заказ № 130-А/04/2012 Подписано в печать 24.04.12 Тираж 100 экз. Усл. пл. 1

ООО "Цифровичок", тел. (495) 649-83-30

у)

! ) www.cfr.ru ; е-таИ:zak@cfr.ru

Текст научной работыДиссертация по биологии, кандидата биологических наук, Садовская, Наталия Сергеевна, Москва

61 12-3/881

Государственный Научно-исследовательский Институт Генетики и Селекции Промышленных Микроорганизмов

На правах рукописи

Садовская Наталия Сергеевна

Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков у-протеобактерий

03.01.09 Математическая биология, биоинформатика

диссертация на соискание учёной степени кандидата биологических наук

Научный руководитель:

кандидат физико-математических наук, доктор биологических наук, профессор Гельфанд Михаил Сергеевич

Москва-2012

ОГЛАВЛЕНИЕ

СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ.........................................................................5

ВВЕДЕНИЕ....................................................................................................................................6

Глава 1. ОБЗОР ЛИТЕРАТУРЫ.................................................................................................Ю

1.1. Мембраны как основной компартмент про- и эукариотических клеток..................10

1.2. Липиды как структурная основа мембран...................................................................11

1.3. Биосинтез жирных кислот.............................................................................................14

1.4. Катаболизм длинноцепочечных жирных кислот........................................................19

1.5. Бас®. как регулятор биосинтеза и катаболизма жирных кислот в Е. соИ..................23

1.6. Участие РаЫ1 в контроле биосинтеза ненасыщенных жирных кислот в Е. соН......25

1.7. Трансмембранные белки................................................................................................26

1.7.1. Свойства а-спиральных трансмембранных белков..................................................29

1.7.2. Свойства трансмембранных белков типа Р-бочонок...............................................30

1.8. Предпочтение пар остатков в трансмембранных белках..........................................'..31

1.9. Классификация трансмембранных белков по Сайеру................................................33

1.10. Рентгеноструктурный анализ белков..........................................................................34

1.11. Экспериментальные методы определения топологии трансмембранных белков .37

1.11.1. Использование гибридов с репортерными белками...............................................37

1.11.2. Использование специфических последовательностей в качестве репортерных.39

1.11.3. Метод сайт-специфического мечения остатков цистеина.....................................40

1.12. Базы данных трансмембранных белков с известной трехмерной структурой.......41

1.13. Предсказание структуры трансмембранных белков т $Шсо...................................43

1.14. Обучающая и тестовая выборки.................................................................................53

Глава 2. МАТЕРИАЛЫ И МЕТОДЫ........................................................................................56

2.1. Банки данных последовательностей бактериальных геномов...................................56

2.2. Компьютерные программы и методы, используемые для анализа геномов, а также

отдельных нуклеотидных и белковых последовательностей............................................56

2.2.1. Поиск ортологов..........................................................................................................56

2.2.2. Распознавание операторных участков ДНК.............................................................57

2.2.3. Изучение транскрипционной регуляции методами сравнительной геномики......58

2.2.4. Подход, основанный на сравнении геномов.............................................................59

2.3. Базы данных, используемые при составлении тестовой выборки трансмембранных белков......................................................................................................................................61

2.4. Алгоритмы, используемые для сравнительного анализа...........................................62

2.5. Компьютерные программы, используемые для сравнительного анализа................63

2.6. Оценка предсказания алгоритмов: коэффициент Жаккарда и коэффициент перекрытия сегментов С.......................................................................................................64

Глава 3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ..............................................................................71

3.1. Построение матрицы позиционных весов для регулона Ра<Ж...................................71

3.2. Построение матрицы позиционных весов для регулона РаЫ1...................................72

3.3. Анализ регулонов метаболизма жирных кислот....................... ..................................78

3.3.1. Анализ регулона Бает.................................................................................................78

3.3.2. Анализ регулона РаЬИ......................г............................................................................85

3.4. Обсуждение результатов анализа регулонов метаболизма жирных кислот...........103

3.4.1. Обсуждение результатов анализа регулона Бает..................................................103

3.4.2. Обсуждение результатов анализа регулона РаЬЯ..................................................104

3.5. Анализ алгоритмов.......................................................................................................106

3.6. Построение тестовой выборки....................................................................................106

3.6.1. Тестовая выборки а-спиральных трансмембранных белков.................................106

3.6.2. Построение кластеров...............................................................................................108

3.6.3. Тестовая выборка белков типа Р-бочонки...............................................................109

3.7. Сравнительный анализ алгоритмов............................................................................109

3.7.1. Сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках......................................................110

3.7.2. Сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в белках типа Р-бочонки...................................................114

3.7.3. Детальный анализ группы алгоритмов РКЕЮ-ТМВВ............................................121

3.8. Обсуждение результатов сравнительного анализа алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках и в белках типа

р-бочонки..............................................................................................................................126

ВЫВОДЫ.............................................................................................................................128

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ......................129

БЛАГОДАРНОСТИ............................................................................................................131

СПИСОК ЛИТЕРАТУРЫ...................................................................................................132

СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ

а.о. - аминокислотный остаток

АПБ - ацил переносящий белок

ЖК - жирные кислоты

ДЖК - длинноцепочечные жирные кислоты

ДНК - дезоксирибонуклеиновая кислота

ЛП - липопротеины

ЛПС - липополисахариды

МОВ - метод опорных векторов

МПВ - матрица позиционных весов

НС - нейронная сеть

СММ - скрытая Марковская модель

ТМ - трансмембранный

ФЛ - фосфолипиды

ФЭ - фосфатидилэтаноламин

ВВЕДЕНИЕ

Актуальность темы

Длинноцепочечные жирные кислоты являются ключевым компонентом всех липидов и таким образом представляют собой важнейшие компоненты мембран. Мембрана в свою очередь ограничивает содержимое клетки и выполняет роль барьера между цитоплазмой и окружающей средой. Согласно жидкостно-мозаичной модели, мембраны рассматривают как динамическую систему, основными составляющими которой являются липидный бислой и различные белки, обладающие широким спектром функциональной активности. Мембранные белки участвуют во всех основных функциях клетки и играют значительную роль в ее жизнедеятельности. Соответственно, полная характеристика как длинноцепочечных жирных кислот, так и мембранных белков является актуальной проблемой современной биологии, в том числе, биоинформатики.

В последнее время у исследователей появились новые возможности компьютерного анализа, обусловленные стремительным ростом количества полностью отсеквенированных геномов. Объем опубликованных нуклеотидных и аминокислотных последовательностей многократно превышает экспериментальные возможности их изучения. Таким образом, аннотация новых последовательностей зачастую осуществляется исключительно биоинформатическими методами и нередко определяет дальнейшие экспериментальные исследования. При этом необходимо отметить, что методы т яШсо требуют меньших временных и материальных затрат и, следовательно, имеют преимущества перед другими подходами.

Одним из таких методов является сравнительный анализ геномных последовательностей. Он позволяет выявить новые члены метаболического пути и предсказать их функции, что особенно существенно при проведении поиска недостающих членов исследуемого пути. Кроме того, этот подход дает возможность переносить уже

имеющуюся информацию о регуляции от одного хорошо изученного генома на другие, менее изученные экспериментально.

Алгоритмы, позволяющие идентифицировать трансмембранные белки на основании аминокислотной последовательности, а также дающие возможность предсказать положение трансмембранных сегментов в трансмембранных белках, представляют собой другой подход, широко применяемый в современной биоинформатике. При этом качество предсказаний алгоритмов составляет около 80%, а результаты сопоставления алгоритмов, полученные различными группами исследователей, заметно различаются. Следует отметить, что работ по сравнительному анализу, выполненных исследователями, которые не разрабатывали тот или иной алгоритм, крайне мало.

Цели и задачи исследования

Цель работы - описание регуляции транскрипции, кодирующей ферменты метаболизма генов длинноцепочечных жирных кислот в у-протеобактериях, и разработка метода тестирования алгоритмов предсказания трансмембранных сегментов в условиях отсутствия экспериментальной тестовой выборки.

В соответствии с этим были поставлены следующие задачи:

1. провести поиск выборки известных сайтов связывания факторов транскрипции БасШ и РаЫ1, регулирующих гены метаболизма длинноцепочечных жирных кислот;

2. построить распознающее правило для поиска потенциальных сайтов связывания Бает и БаЬЯ;

3. построить ортологические ряды генов, вовлеченных в метаболизм длинноцепочечных жирных кислот и определить их регуляцию в родственных организмах;

4. провести поиск новых членов регулонов Ра<Ж и РаЬЯ;

5. определить разметку потенциальных трансмембранных сегментов для а-спиральных белков и белков типа р-бочонок с использованием доступных алгоритмов, реализованных в виде интеренет-серверов;

6. разработать и апробировать метод оценки качества предсказания алгоритмов на основе критерия самосогласованности в условиях дефицита данных трансмембранных белков с известной мембранной разметкой.

Научная новизна и практическая значимость

Впервые исследована регуляция белком Ра<Ж в четырех геномах у-протеобактерий. Благодаря проведенному анализу выявлены три новых гена, кодирующие ферменты катаболизма генов длинноцепочечных жирных кислот в у-протеобактериях, и показана регуляция одного нового гена:

- ген уа/Н, кодирующий ацил-СоА-дегидрогеназу, идентифицирован как ген, описанный ранее в литературе как/ас1Е без привязки к геному;

- гены, входящие в состав оперона Ь2342-Ь2341, кодирующие Р-кетоацил-СоА тиолазу и 3-гидроксиацил-СоА дегидрогеназу, соответственно, которые впоследствии получили название /ас11.1.

- показана регуляция гена/ас1Н.

Исследована регуляция белком БаЬК в шести группах у-протеобактерий. Благодаря проведенному анализу выявлен один новый регулируемый ген 1с/Н, кодирующий СоА-лигазу длинноцепочечных жирных кислот.

Разработан метод оценки качества предсказания алгоритмов на основе критерия самосогласованности в условиях дефицита трансмембранных белков с известной мембранной разметкой.

Выявлены наиболее надежные алгоритмы, реализованные в виде интернет-серверов, предсказывающие положение трансмембранных сегментов в а-спиральных белках и в белках типа Р-бочонок.

Апробация работы

Основные результаты диссертации были представлены на следующих конференциях: The Third International Conference on Bioinformatics of Genome Regulation and Structure (Novosibirsk, July 2002); The First International Moscow Conference on Computational Molecular Biology (Moscow, July 2003); The Fourth International Conference on Bioinformatics of Genome Regulation and Structure (Новосибирск, июль 2004); Школа молодых ученых "Сравнительная геномика", (Севастополь, Украина, июнь 2005); The Second International Moscow Conference on Computational Molecular Biology (Moscow, July 2005); The Third International Moscow Conference on Computational Molecular Biology (Moscow, July 2007); 30-я конференци и мол одых ученых и спец иалистов ИППИ РАН "Информационные технологии и системы" Россия, сентябрь 2007; The Fourth International Moscow Conference on Computational Molecular Biology (Moscow, July 2009).

Глава 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Мембраны как основной компартмент про- и эукариотических клеток

Понятие о клетке как самостоятельной единице жизни впервые ввел Теодор Шванн в первой половине XIX века. В настоящее время ее рассматривают как согласованную систему биополимеров (таких, как нуклеиновые кислоты, белки, углеводы и пр., а также их комплексы), которая ограничена мембраной, имеет собственный обмен веществ и способна самоподдерживаться, репродуцироваться и развиваться.

Клетка имеет сложную структурную организацию и включает различные компартменты. Согласно морфологическим признакам, компартменты формально разделяют на две группы: мембранные и немембранные [1]. Мембраны в свою очередь представляют собой липопротеидные структуры, образованные липидным бислоем, с вкраплениями в виде белковых молекул (рис. 1.1).

Рисунок 1.1. Схематическое строение мембраны. По [2].

Следует упомянуть, что толщина мембранных структур составляет приблизительно 7-10 нм, их масса занимает порядка 4% от массы клетки, при этом площадь клеточных

мембран весьма значительна.

Соотношение между липидами и белками зависит от типа мембраны. Как правило,

на липиды приходится 25-60%, на белки - 40-75% от их общей массы. В составе многих

мембран содержатся и углеводы. Их количество может варьировать в диапазоне 2-10%

[3].

Плазматическая мембрана ограничивает содержимое прокариотической клетки и выполняет роль активного барьера между цитоплазмой и окружающей средой. При этом цитоплазматические мембраны прокариотических клеток обычно выражены не так сильно, как эукариотических, но некоторые виды бактерий (например, фототрофные пурпурные бактерии) обладают внутриклеточными мембранами в большом количестве. Как правило, все внутриклеточные мембраны прокариот образуются из плазматической

мембраны.

1.2. Липиды как структурная основа мембран

В 20-х годах прошлого века липидный бислой стали рассматривать как основу клеточных мембран. Согласно общепринятой жидкостно-мозаичной модели, мембраны представляют собой динамическую систему, основными компонентами которой являются липидный бислой и различные белки, обладающие широким спектром функциональной активности [2]. Липиды образуют большую группу органических веществ, которые характеризуются гидрофобностью, т.е. плохой растворимостью в воде, и в тоже время липофильностью, т.е. хорошей растворимостью в органических растворителях.

Необходимо отметить, что состав липидов, из которых образованы клеточные мембраны, весьма разнообразен [3]. Тем не менее, липиды в зависимости от структуры

разделяют на две ключевые группы: неполярные липиды (ацилглицериды, свободные жирные кислоты, стеролы, воска и стеарил эфиры) и полярные липиды (гликозилглицериды, сфинголипиды и фосфоглицериды).

К мембранным липидам в первую очередь необходимо отнести полярные липиды и стеролы, являющиеся важными структурными компонентами клеточных мембран. Мембранные липиды играют роль проницаемых барьеров клеток и дают основу для сборки и функционирования широкого спектра клеточных процессов, как, например, слияние мембран. Кроме того, мембранные липиды воздействуют на процессы, ассоциированные с мембранами [4]. Помимо структурной роли, липиды могут играть роль посредников в сигнальных путях (сфинголипиды, инозитольные липиды, продукты окисления липидов) и принимать участие в восприятии изменений окружающей среды.

Типичная молекула липида состоит из двух функционально различных частей: полярной головки и неполярных хвостов (рис. 1.2).

Голойка \ Xкисты Глицерин

Рисунок 1.2. Схема молекулы липида. По [3].

Полярные головки могут обладать отрицательными зарядами или, если они имеют одновременно положительные и отрицательные заряды, быть нейтральными. Жирные кислоты (ЖК), входящие в состав липидов, обусловливают хорошую растворимость липидов в жирах и в органических растворителях. ЖК отличаются по длине цепи, степени насыщенности, положению двойных связей, позиционных изомеров или дополнительных химических групп, как, например, эпокси-, гидрокси-, кето-, флуоро-, цикло- и ацетиленовая.

В мембране молекулы липидов образуют бислой, в котором гидрофобные концы ЖК обращены внутрь мембраны, а гидрофильные головки обращены наружу и формируют заряженный слой на поверхности мембраны (рис. 1.1).

Полярные головки

Липпды

Водный растворитель

Гидрофобные хвосты Неполярные хвосты

Рисунок 1.3. Пример образования мембраной замкнутого компартмента. По [5] с модификациями.

Одновременное присутствие в составе липидов полярной головки и неполярных хвостов объясняет их способность самопроизвольно образовывать мембранные структуры. При этом как естественные, так и искусственные мембраны всегда замкнуты сами на себя, представляя пузырьки, полые вакуоли, плоские замкнутые мешки или

трубчатые образования (рис. 1.3).

1.3. Биосинтез жирных кислот

Биосинтез ЖК является ключевым этапом в формировании мембранных липидов и представляет собой жизненно важный аспект