Бесплатный автореферат и диссертация по биологии на тему
Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков"

На правах рукописи

Сутормин Роман Александрович

ИСПОЛЬЗОВАНИЕ ВЕРОЯТНОСТНЫХ МЕТОДОВ Д ЛЯ АНАЛИЗА АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ МЕМБРАННЫХ БЕЛКОВ

03.00.02 - Биофизика

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

Пущино - 2007

003054043

Работа выполнена в Государственном Научно-исследовательском Институте Генетики и

Селекции Промышленных Микроорганизмов.

Научный руководитель: доктор биологических наук,

Андрей Александрович Миронов

Официальные оппоненты: доктор физико-математических наук, профессор,

Владимир Гаевич Туманян, доктор физико-математических наук, профессор, Алексей Витальевич Финкелыптейн

Ведущая организация: Институт проблем передачи информации

им. A.A. Харкевича РАН

Защита состоится " марта 2007 г. в . на заседании диссертационного совета Д002.093.01 при Институте Теоретической и Экспериментальной Биофизики РАН по адресу: г. Пущино Московской обл., ул. Институтская, 3, аудитория б.

С диссертацией можно ознакомиться в библиотеке ИТЭБ РАН. Автореферат разослан "19" февраля 2007 г. в ^ ч.

Ученый секретарь диссертационного совета

.Панина Н.Ф.

Общав характеристика работы.

Актуальность темы:

Мембранные белки играют важную роль в жизнедеятельности клетки. По функциональной нагрузке можно различать мембранные белки, задействованные в таких важных процессах жизнедеятельности в клетке, как селективный транспорт, запасание энергии, передача сигналов между клетками, преобразование энергии света в бактериях, сортировка белков между отделами клетки. По средним оценкам мембранные белки составляют 20-30% всего протеома клетки [Frishman et al., 1997]. Альфа-спиральные белки составляют подавляющее большинство мембранных белков, и в геноме типичной бактериальной клетки кодирующих их генов приблизительно в 10 раз больше, чем генов бета-слойных белков [Mirus et al., 2005]. В то же время метод рентгеноструктурного анализа, позволяющий установить пространственную структуру белков, в случае мембранных белков работает плохо, что связано с высокой гидрофобностью этих белков, вследствие чего на сегодняшний день известно не более 160 уникальных трехмерных структур мембранных белков [White, 2004].

В тех случаях, когда об альфа-спиральном мембранном белке неизвестно ничего кроме его аминокислотной последовательности, используют методы предсказания вторичной структуры, а точнее расположения участков последовательности находящихся в мембране. Такие участки приблизительно совпадают с альфа-спиралями белка, пересекающими мембрану. Качество лучших из этих методов по оптимистическим оценкам составляет около 80%. Впрочем, оценки качества различных методов в различных работах сильно разнятся.

Знание информации о вторичной структуре приближает нас к пониманию пространственной структуры, но кроме этого помогает улучшить чувствительность гомологического поиска и точность автоматического приписывания белку функции. Задача предсказания вторичной структуры мембранных белков была сформулирована уже более 20 лет назад [Argos et al., 1982], после чего предлагались различные методы решения этой задачи. Наиболее эффективными признаны методы, основанные на скрытых Марковских моделях (НММ), где решается задача наилучшей в смысле статистического соответствия укладки аминокислотной последовательности на цепь состояний, следуя ребрам переходов [Viklund et al., 2004]. К таким методам можно причислить ТМНММ, НММТОР. В ряде методов (PHDhtm, MEMSAT) для предсказания используется дополнительная эволюционная информация, формируемая в виде выравниваний или частотных профилей.

При разработке методов предсказания мембранной структуры важной является проблема формирования обучающей выборки, т.е. выборки последовательностей, для которых известно точное расположение мембранных сегментов, в условиях нехватки данных по известным структурам мембранных белков. Авторам сервера ТМНММ [Krogh et al., 2001] удалось сформировать выборку из 160 аминокислотных последовательностей с экспериментально установленной разметкой мембранных сегментов. Выборка доступна на сайте сервера.

В связи с ростом геномных данных, все большую важность приобретают методы сравнительного анализа последовательностей, главными среди которых являются множественное (или попарное) выравнивание и поиск гомологии. Эти задачи немного различаются, но в обеих в случае белков элементарной единицей, подлежащей оценке, является пара аминокислотных остатков из'двух последовательностей, а сама оцениваемая величина - это правдоподобность того, что эти аминокислоты происходят из общей предковой аминокислоты. В работе [Dayhoff et al., 1978] Маргарет Дэйхофф предложила описывать эволюцию в белках Марковской моделью, в которой предполагались независимость изменения соседних аминокислот и независимость скоростей изменений от времени. В соответствии с моделью была построена известная серия РАМ матриц частот замен для различных эволюционных расстояний. Проблемой этого метода было то, что вначале строилась матрица для очень близких последовательностей, а по ней строились все остальные матрицы, что должно приводить к накоплению ошибок, допущенных на начальном этапе. Позднее в работе [Henikoff et al., 1992] был предложен другой подход, основанный на аншшзе консервативных блоков множественных выравниваний, т.е. подсчете частот пар букв, встречаемых в блоках. Для того чтобы строить матрицы на разных эволюционных расстояниях, наборы слишком близких фрагментов в блоках заменялись одним. Серия матриц, построенная этим методом, была названа BLOSUM.

В случае мембранных белков стандартные методы выравнивания работают не так хорошо как для глобулярных белков, особенно в т.н. "серой" зоне идентичности между последовательностями от 20% до 30%. Это связано с тем, что мембранные сегменты отличаются по статистическим свойствам от последовательностей глобулярных белков. Для учета этих особенностей разумно использовать, как минимум, еще одну матрицу (или серию матриц), соответствующую мембранным сегментам. В работе [Jones et al., 1994] была построена серия матриц JTT РАМ с применением методики, аналогичной то, что использовала Дэйхофф. Для подсчета мутаций были сформированы 3155 попарных ■ выравниваний с идентичностью между последовательностями не менее 85%. В работе [Ng et al., 2000] к построению мембранной матрицы замен был применен подход, аналогичный

ВЬОБиМ. Из 2935 семейств родственных белковых последовательностей были выделены 8909 консервативных блоков. После применения алгоритма РЬГОЬйп предсказания мембранной структуры было отобрано 844 блока, покрывающие мембранные сегменты. Серию матриц, также построенную кластеризацией фрагментов с идентичностью, превосходящей серию порогов, назвали РНОЫт. В обоих случаях объемы исходных данных кажутся недостаточными для достижения хорошей статистической достоверности.

Цели и задачи работы:

Целью настоящей работы является изучение статистических особенностей встречаемости аминокислотных остатков и их эволюции в различных участках мембранных белков с использованием эволюционных моделей и скрытых Марковских моделей и разработка методов анализа и предсказания структуры мембранных белков.

В ходе работы были поставлены следующие задачи:

1. Построение серий матриц замен аминокислот в мембранных областях бактериальных и эукариотических белков и сравнение матриц этих двух белковых классов.

2. Разработка метода предсказания мембранной структуры, соединяющего положительные стороны скрытых Марковских моделей и сравнительного подхода.

3. Выявление статистических особенностей встречаемости аминокислот в мембранных альфа-спиралях и применение этих особенностей для определения сторон альфа-спиралей, формирующих транспортный канал.

Научная новизна:

1. Впервые отдельно изучены частоты замен аминокислотных остатков в мембранных областях мембранных белков для двух белковых классов: бактериальных и эукариотических транспортеров; проведен сравнительный анализ полученных результатов.

2. Впервые рассмотрена возможность применения одновременно скрытых Марковских моделей и сравнительного подхода для решения задачи предсказания положений мембранных областей на аминокислотных последовательностях мембранных белков. Разработан метод, соединяющий преимущества обоих подходов.

3. Впервые построена тестовая выборка структурных множественных выравниваний для проверки работы методов, предсказывающих расположение мембранных областей, и методов множественного выравнивания последовательностей мембранных белков.

4. Разработан метод ориентации спиралей мембранных бежов при формировании канала.

Практическая значимость:

Разработанный метод предсказания положений мембранных областей на последовательностях мембранных белков имеет лучшие показатели качества в классе методов, предсказывающих мембранную вторичную структуру по множественному выравниванию без использования гомологического поиска по дополнительной белковой базе данных.

Полученные серии матриц замен аминокислот в мембранных областях, а также разработанный метод предсказания положений мембранных областей на множественном выравнивании могут быть использованы как отправная точка для разработки метода множественного выравнивания аминокислотных последовательностей мембранных белков.

Кроме этого построенная тестовая выборка структурных выравниваний мембранных белков может быть использована для проверки качества работы методов, решающих задачу множественного выравнивая для класса мембранных белков.

Апробация работы.

Основные положения диссертации были представлены на следующих конференциях: A NATO Advanced Studies Institute "Artificial Intelligence and Heuristic Methods for Bioinformatics" (San Miniato, Italy, October 2001); International Conference "Bioinformatics of Genome Structure and Regulation" BGRS'2002 (Novosibirsk, Russia, july 2002); Школа молодых ученых "Сравнительная геномика" (Севастополь, Украина; июнь

2005); Школа "Биоинформатика, геномика, протеомика" (Алма-Ата, Казахстан, апрель

2006); заседание секции "Молекулярная биофизика" ученого совета ИТЭБ РАН.

Структура и объем диссертации:

Диссертационная работа содержит 112 страниц и включает введение, содержащее постановку задач, обзор литературы, 4 главы, в которых дано решение поставленных задач и обсуждение результатов, и список цитированной литературы.

Содержание диссертации.

В первых двух главах даются введение и обзор литературы.

В главе 3 описывается построение матриц частот замен для мембранных областей. Задача состояла в построении серии матриц частот аминокислотных замен в мембранных областях бактериальных транспортеров и выявлении особенностей, отличающих матрицы

от матриц, построенных для глобулярных белков, и матриц, описывающих частоты замен в мембранных областях эукариотических транспортеров. Основной проблемой для этого класса задач является нехватка информации о точном положении мембранных сегментов в реальных белках и неточность предсказания этих положений компьютерными методами. В данной работе, в отличие от других подходов, решающих аналогичные задачи, при определении положений мембранных областей использовались сразу два критерия согласованности: (1) согласованность результатов предсказания несколькими методами и (2) согласованность мембранных разметок для близкородственных последовательностей. Если кратко описать процедуру, то она включает следующие стадии:

- формирование набора последовательностей, не слишком близко и не слишком далеко отстоящих друг от друга по похожести (идентичности);

- кластеризация набора в близкородственные группы и выравнивание последовательностей внутри кластера,

- формирование мембранных областей, согласованных внутри каждого кластера;

- составление матриц путем попарного перебирания последовательностей внутри каждого кластера.

1) формирование основной выборки.

Из литературы и с вэб-ресурсов TCDB [Saier et al., 2006] и TransportDB [Ren et al., 2004] были собраны все бактериальные представители класса ТС.2А (в соответствии с классификацией Сайера-Паулсена). Исходную выборку составили 1312 последовательностей мембранных белков из 101 семейства. Далее выборка была пополнена родственными, но неклассифицированными белками для каждой последовательности гомологическим поиском с помощью программы BLAST в бактериальных геномах системы ERGO [Overbeek et al., 2000]. Для этих целей были взяты бактериальные геномы, удовлетворяющие следующему условию завершенности секвенирования: геном должен содержать хотя бы 500 генов не более чем в 10 контигах. Этому условию удовлетворил 31 геном. При гомологическом поиске использовались ограничения E-value < Ю'10 и identity(Be.ni4Hiia идентичности) > 30%. В результате поиска белковый набор пополнился 860 гомологами, составив 2172 белка.

2) кластеризация и выравнивание

Далее набор последовательностей разделялся на кластеры для различных уровней сходства (диапазонов по идентичности последовательностей). Матрица замен (частот пар аминокислот) строилась отдельно для каждого уровня сходства. В качестве меры сходства использовались значения идентичности, даваемые программой BLAST (т.е. набор последовательностей был запущен на гомологический поиск против самого себя). Набор

последовательностей был разделен на кластеры методом ближайшего соседа (метод выделения в графе компонент связности) отдельно для каждого из нижних порогов идентичности 30%, 40%,80%. Это означает, что строился граф, вершинами, которого являются последовательности, а ребрами - отношения сходства. Если идентичность между некоторыми двумя последовательностями превосходит заданный порог, то соответствующие вершины соединяются ребром, в противном случае - не соединяются. Если размер какого-то кластера превосходил 50 последовательностей, то кластер разделялся на несколько путем увеличения нижнего порога идентичности для этого кластера.

Можно отметить такую особенность, что при нижнем пороге на идентичность 30% кластеры соответствуют семействам бактериальных транспортеров по классификации Сайера-Паулсена. При этом большие семейства в классификации описываются двумя-тремя кластерами, а 235 последовательностей не кластеризуются ни с кем, т.е. представляют собой кластер одного представителя (отдельно стоящие, не имеющие близкородственных связей белки). В таблице 1 приводятся количественные характеристики получившихся кластеров.

В каждом из получившихся кластеров последовательности были выровнены с помощью программы СЫ!8ТАЪ\У.

Таблица 1. Количественные характеристики кластеров бактериальной выборки (ТС.2А), использованных для построения серии ВАТМАЭ матриц замен.

Порог кластеризации

30 40 50 60 70 80

Кластеров 213 322 345 319 270 237

Белков в кластере (в ср.) 9.5 5.0 3.6 3.0 2.7 2.5

Пар белков* 6854 2356 909 429 176 496

Пар аминокислот в ядрах* 1,254,754 449,147 177,371 87,186 35,610 97,794

* - рассматривались только пары белков, идентичность между которыми попадала в диапазон (порог, порог+10%).

3) определение мембранных ядер.

Задача этого этапа - определение того, какие части белковой цепи лежат в мембране, а какие - нет. Данных об определенных пространственных структурах мембранных белков имеется достаточно мало. При этом качество разработанных компьютерных методов предсказания положений мембранных сегментов оставляет желать лучшего. В то же время нам становится доступным все большее количество геномов, а значит и белков. И информацию о родстве последовательностей и отдельных аминокислот можно использовать для уменьшения ошибок предсказания.

В качестве такого инструмента корректировки ошибок предсказания предлагается идея трансмембранных ядер (ТМ-ядер). ТМ-ядра - это такие области аминокислотных последовательностей мембранных белков, для которых наблюдается два вида согласования: (1) согласование "мембранности" (т.е. нахождения участка белковой цепи в мембране), полученное несколькими предсказывающими методами, и согласование "мембранности" между родственными последовательностями (используется метод множественного выравнивания).

Построение ТМ-ядер состоит в следующем. Вначале для каждой последовательности кластера определяются мембранные области, достоверные с точки зрения голосования пяти известных методов предсказания: ТМНММ [КгойЬ й а!., 2001], ТМРМЮ [Нойпапп а а!., 1993], БАЗ [СБегсо а а1,1997], ТМАР [Регаоп й а1„ 1997], РЭСЖТ рЧака! е1 а1., 1999]. При запуске методов, использовались значения параметров, выбранные по умолчанию. Если три из пяти методов считали, что та или иная аминокислота белковой цепи находится в мембране, то соответствующая позиция последовательности помечалась как входящая в достоверную мембранную область. Далее для каждого кластера (точнее для его множественного выравнивания) определялись ТМ-ядра. Столбец множественного выравнивания входил в ТМ-ядро, если хотя бы 60% последовательностей (среди не имеющих делеций в этом столбце) имели в этом столбце достоверную ТМ-область. Далее ТМ-ядра проецировались на каждую последовательность кластера. Не смотря на то, что делеции - редкое явление в мембранных областях (они встречаются реже, чем во внемембранных областях), при построении ТМ-ядер делеции разрешались. Это было сделано, чтобы учесть иногда встречаемую ситуацию, когда в родственном белке исчезает целый домен, содержащий несколько мембранных спиралей. 4) Построение серии матриц замен

На основании положений ТМ-ядер в выравниваниях кластеров строилась серия матриц замен, где каждая матрица соответствует своему диапазону идентичности (30%-40%, 40%-50%,..., 80%-90%). При этом для каждой матрицы использовалась та версия кластеров, для которой нижний порог кластеризации совпадает с нижней границей матричного диапазона (т.е. если мы строим матрицу для расстояний от 50% до 60%, то берем кластеры, построенные с нижним порогом 50%). Для каждого кластера и для каждой пары последовательностей, идентичность между которыми попадает в диапазон, подсчитывалось количество пар аминокислот каждого типа, находящихся в столбце какого-либо ТМ-ядра. Суммарные данные можно представить в виде матрицы размером 20x20, где по вертикали и горизонтали отсчитываются номера двадцати типов аминокислот. Далее каждая матрица нормировалась (чтобы сумма элементов была равна

единице) и симметризовалась. Серия была названа BATMAS (от BAeterial Transmembrane MAtrix of Substitutions), а матрицы обозначаются BATMASn, где n - нижняя граница матричного диапазона. Как видно из таблицы 1, при построении матрицы BATMAS30 было проанализировано более миллиона пар аминокислот. Для построения известной матрицы BLOSUM62 было использовано приблизительно то же количество пар. В работе [Ng et al., 2000], где строились мембранные матрицы на основании консервативных блоков, данных о количествах пар букв не приводится.

Для того чтобы проверить точность результирующих матриц, вся процедура была повторена для двух независимо построенных контрольных выборок. Первая выборка - это бактериальные ABC-транспортеры (класс ЗАЛ по классификации Сайера-Паулсена). Выборка белков 116 семейств бактериальных ABC-транспортеров, описанных на вэб-ресурсе Сайера, была пополнена гомологическим поиском (как описано для основной выборки), после чего составила 760 белков.

Вторая выборка - это эукариотические белки класса 2А (классификация Сайера-Паулсена), описанные на том же вэб-ресурсе. В выборку не включались белки внутриклеточных мембран (митохондрий, лизосом, хлоропластов и т.д.). После пополнения гомологическим поиском выборка составила 527 белков.

Таблица 2. Аминокислотный состав различных матрид (в процента!)_

ACDEFOHIK.LMNPQRSTVWY

BLOSUM62 7.4 2.5 5.4 5.4 4.7 7.4 2.6 6.8 5.8 9.9 2.8 4.5 3.9 3.4 5.2 5.7 5.1 7.3 1.3 3.2

JTTPAM (Jooes et al.) 10.51 2.19 0.89 0.97 7.77 7.58 1.68 11.88 1.12 16.35 3.33 1.85 2.60 1.41 1.57 5.68 5.23 11.95 2.23 3.24

PHDhtm (Ng et al.) 8.8 2.S 1.4 10 9.Э 5.7 1.1 11.0 0.9 16.0 4.1 2.2 3.2 1.2 2.1 6.5 5.3 11.0 1.9 4.7

BATMAS eu bactcrial 12.76 i.3o 040 0.42 8,37 9.77 032 11.93 0.45 18.37 4.31 1.13 2.63 0.79 0.59 5.21 5.41 11.54 1.70 2.62

BATMAS Eukaiyotic 9.21 2.79 0.49 0.65 1010 8.97 0.37 12.97- 0.52 15.17 3.42 2.16 2,27 1.26 0.56 6.58 522 11.42 2.09 3.79

Результаты.

В таблице 2 приведены различные аминокислотные составы, соответствующие всем белкам в среднем, мембранным сегментам, описанным в публикациях, и ТМ-ядрам. Аминокислотные составы извлечены из матриц частот замен, суммированием значений вдоль строк матриц. Как и следовало ожидать доля гидрофобных аминокислот в случаях мембранного состава заметно выше, чем в белках в целом. Однако аминокислотный состав ТМ-ядер имеет значимые отличия от состава, полученного другими мембранными методами. ТМ-ядра содержат меньше полярных и заряженных остатков, суммарное содержание И, Е, Н, К, Я, N и (2 дает 5% в ядрах, тогда как для других методов это

содержание составляет 12-13%. Интересно, что содержание отрицательно заряженных (Rh К) и положительно заряженных (D и Е) аминокислотных остатков в ТМ-ядрах приблизительно одинаково, тогда как в других мембранных матрицах доля R и К превышает долю D и Е почти в два раза.

Если рассматривать значения мембранной склонности (или их можно назвать относительным содержанием), которые рассчитываются как частота аминокислоты по мембранному распределению, деленная на частоту аминокислоты по среднебелковому распределению, то выявляются качественные отличия свойств TM-ядер и данных по другим мембранным матрицам. Эти отличия можно проиллюстрировать следующими рядами аминокислот:

TM-kernels: L>F>I>M>A>V>G >W»Y>P

TM-segments [J3]: I >W>L>F = V > А > M »G > Y»P

TM-segments [N3]: F>M>L=I>V>Y>W»A»P>G

(аминокислоты в рядах упорядочены по убыванию относительных мембранных

склонностей, знак = показывает близость значений, знак » наоборот, большое отличие).

Те же наблюдения сохраняются для контрольной выборки бактериальных АВС-

транспортеров.

С другой стороны аминокислотный состав TM-ядер эукариотических транспортеров отличается от состава TM-ядер обеих бактериальных выборок. Как видно из табл.2, эукариотические TM-ядра характеризуются существенно большим содержанием аминокислот С, F, N, W, Y и меньшим содержанием А и L, чем в бактериальных ядрах. Интересно, что составы мембранных областей, взятые из работ Jones et al. и Ng et al., скорее ближе к составу ядер для эукариотической выборки, чем для бактериальной.

Отдельно анализировались отношения нормированных элементов матрицы BATMAS30 к нормированным элементам матрицы BLOSUM62. Нормировка элементов матриц состояла в разделении каждого элемента на произведение частот двух аминокислот, замену которых описывает данный элемент. Диагональные нормированные элементы были названы консервативными. Если отношение находится на диагонали, то сравнение его с единицей говорит о том, в какой из матриц (а значит, и в каком из двух типов областей, мембранной или петлевой) данная аминокислота более консервативна (число больше 1 означает большую консервативность в BATMAS30). Для внедиагональных элементов значение больше 1 означает, что аминокислоты, соответствующие данному элементу, предпочитают сменять друг друга охотнее для матрицы BATMAS30, чем для BLOSUM62. Основное различие состоит в увеличении в мембранных областях консервативности заряженных (D, Е, К, R, Н) и некоторых

полярных (N, Q, P) аминокислот и уменьшение консервативности таких гидрофобных аминокислот как L, I, F, W и V. В матрице BATMAS30 триптофан (W) более часто меняется на положительно заряженные аминокислоты R, К, Н.

Похожие отношения нормализованных элементов наблюдаются и для другой мембранной матрицы, построенной по ТМ-ядрам контрольной мембранной выборки АВС-транспортеров (класс ЗАЛ). Также была взята матрица, соответствующая диапазону идентичности 30%-40%.

При сравнении матриц для ТМ-ядер, построенных но основной выборке и по выборке эукариотических белков, выявляются значимые различия в частотах замен. Основные отличия приходятся на триптофан, особенно понижение в случае эукариотической матрицы взаимозаменяемости пар W-D и W-Q. Интересным является увеличение в эукариотах взаимозаменяемости тирозина (Y) н лизина (К).

Для того чтобы убедиться в значимости полученных результатов, была проверена внутренняя согласованность матриц серии BATMAS с точки зрения эволюционной модели аминокислот. Эволюцию вероятностей аминокислотных замен во времени можно описывать эволюционным Марковским процессом (ЕМР), который является обобщением модели, предложенной Маргарет Дэйхофф. Идея ЕМР состоит в том, что процесс изменения аминокислот (или в общем случае букв в некотором алфавите) описывается вероятностями перехода от одной аминокислоты i к другой j за промежуток времени I, Pij(t), не зависящими от начального момента времени. Эти вероятности обладают свойством p(ti+tz)=p(ti)p(h) в смысле умножения матриц, а значит, могут быть описаны как экспонента от константной матрицы мгновенных скоростей Q, умноженной на время t, т.е. p(t) = ев'. Частота пары букв в силу свойств условной вероятности есть ту = P(iJ) - P(j | i)P(i) = p,j (t)d,, где cl: - частоты отдельных аминокислот (т.е.

dt = "YjHij - mji )■ Имея матрицу вероятностей переходов p(ti), мы можем получить j i

матрицу p(tj) как p{t2) = , где логарифмирование матрицы понимается как

разложение в ряд. Поэтому, зная, какой промежуток эволюционного времени соответствует каждой матрице замен в серии, мы можем сравнивать матрицы между собой. Кроме вопроса об изменении эволюционного времени матрицы замен, представляется важным вопрос об относительности этого времени, что связано с тем, что время входит в формулу экспоненты как множитель. В этой ситуации принято мерить время в специальных абсолютных единицах РАМ (от Point Accepted Mutations), предложенных Маргарет Дэйхофф. Один РАМ соответствует матрице замен, где сумма

недиагональных элементов равна 0.01, т.е. за это время 1% всех букв последовательности изменяется.

При сравнении двух матриц, одна из которых является результатом приведения эволюционного времещьк тому, которое соответствует второй, измеряются две величины, (1 - отличие диагональных элементов, и в - отличие недиагональных элементов. Обе величины рассчитываются как среднеквадратичное отклонение от диагонали (0;0)-(1;1) точек на плоскости с координатами из двух соответствующих ячеек матриц. В таблице 3 приведены результаты сравнения матриц серии ВАТМА8. Каждая ячейка описывает сравнение измененной по времени матрицы из левого столбца с матрицей из верхней строки. Значение I в ячейках соответствует изменению времени первой из матриц. Величина ¡<1 в первом столбце означает уровень идентичности матрицы, т.е. сумму диагональных элементов. Анализ результатов показал, что матрицы довольно хорошо согласуются с эволюционной моделью. Повышенный уровень ошибок, связанных с матрицами ВАТМА870 и ВАТМА880, может быть объяснен недостаточным эволюционным расстоянием для эффективного применения сравнительного подхода, а также недостаточным объемом исходных данных (для этих уровней сходства было получено меньше кластеров).

Таблица 3. Согласованность матриц замен серии ВАТМАБ (ЕМР модель).

ВАТМАБЗО ВАТМА840 ВАТМАБбО ВАТМАЯбО ВАТМАв70 ВАТМАвЗО

ВАТМАБЗО 1(1: 35.1% г: 131 рам 1=-43 рам 1=-72 рам 1—91 рам 1--106 рам Ь=-126 рам <1=0.000928 (1=0.000979 (1=0. 001459 (1=0.001376 (1=0.001688 3=0.000165 э=0.000235 3=0.000251 э-о.000265 5=0.000144

ВАТМАМО 1с1: 46.9% с: 88 рам 1=43 рам t=-29 рам t=-48 рам 1=-62 рам 1=-83 рам <3=0.000789 - (1=0.000994 (1=0.001517 <1=0.001915 <1=0.002469 5=0.000174 3=0.000140 5-0.000159 3=0.000204 3=0.000130

ВАТМАЯ50 1<1: 58.6» t: 60 рам t=72 рам 1=29 рам 1=-19 рам 1=-34 рам 1—54 рам (1=0.0007 90 <1=0.000895 - <1=0.000689 (1=0.001377 <1=0.001960 б=0.000219 5-0.000129 5=0.000116 5=0.000136 5=0.000101

ВАТМАБбО 1(3: 63.8% 1: 40 рам t=91 рам 1=48 рам 1=19 рам 1=-15 рам 1=-35 рам <1=0.001192 (3=0.001396 (1=0.000699 - (3-0.001438 (1-0.001885 3=0.000287 5=0.000171 5=0.000137 5-0.000134 3-0.000101

ВАТМА870 1(3: 78.2% г: 26 рам 1=106 рам t=62 рам 1=34 рам 1=15 рам 1—20 рам (1-0.001308 <1=0.001857 <3=0. 001423 (1=0.001408 - (3-0.001754 э=0.000310 г=0.000232 э=0.000191 3=0.000168 г=0.000075

ВАТМАввО 1(1: 94.6% Ь: 6 рам 1=126 рам 1=83 рам 1=54 рам 1=35 рам 1=20 рам <3=0.002333 <1=0.003416 <1=0.003048 <1=0.002850 <3=0.002144 3=0.000420 3=0.000375 г=0.000347 3-0.000342 5=0.000230

В главе 4 описан метод предсказания вторичной (мембранной) структуры. Решение задачи предсказания расположения мембранных сегментов на аминокислотной последовательности мембранных белков является актуальной в силу нехватки реальных данных по пространственным структурам. Качество существующих методов предсказания оставляет желать лучшего. Самые хорошие результаты показывают методы, основанные на скрытых Марковских моделях (НММ), например методы ТМНММ и НММТОР. Все

методы предсказания стремятся точно определить положение концов мембранных сегментов. Так как нельзя быть в точности уверенным, что положение мембранного участка жестко фиксировано (белковая молекула "дышит", т.е. происходят слабые колебания звеньев цепи), то более адекватным было бы предсказание того, какова вероятность для данной аминокислоты находиться в мембране (назовем это «мембранный вероятностный профиль»). Для аминокислот, лежащих внутри мембраны, эта вероятность должна быть высока, а на краях она должна плавно опускаться до нуля. Такие вероятности можно получать на основе НММ. Используя алгоритм forward-backward [Krogh et al., 1994], мы можем вычислять вероятность того, насколько та или иная аминокислота укладывается в мембранную часть модели. Задача состояла в разработке метода построения мембранного вероятностного профиля для столбцов множественного выравнивания и построении проверочного набора кластеров мембранных белков с известной трехмерной структурой, для которых можно построить адекватное структурное выравнивание.

1) Метод формирования мембранного вероятностного профиля.

Метод формирования мембранного профиля, где каждому столбцу множественного выравнивания приписывается вероятность того, что аминокислотные остатки этого столбца лежат в мембране, состоит в следующем. На основе множественного выравнивания строится частотный аминокислотный профиль (частотная матрица). Для этого строится матрица попарных эволюционных расстояний между последовательностями на основе величин попарного сходства (identity) по формуле Джукса-Кантора (исп. пуассоновскую коррекцию): d = -log((20 • max {1.1/ 20, id} -1) /19), где d - эволюционное расстояние, a id - доля столбцов выравнивания с совпавшими аминокислотами. Далее строится филогенетическое дерево методом ближайшего соседа и каждой последовательности приписывается вес простым, но эффективным методом, предложенным в работе [Gerstein et al., 1994]. Веса обладают следующим свойством. Если у нас имеется к одинаковых последовательностей, то они получают веса 1/k, а последовательность, не похожая ни на одну другую получает вес 1. Частотный профиль формируется путем усреднения всех единичных профилей последовательностей с учетом их веса. Предлагаемый метод основан на модели НММ, аналогичной той, которая использована в сервере ТМНММ. В этой модели различаются состояния для аминокислот, находящихся в цитоплазме, для аминокислот, смотрящих наружу клетки, и двух последовательностей состояний, соответствующих белковой цепи, пересекающей мембрану изнутри наружу и наоборот. Выделяются две группы состояний модели, приходящиеся на границы мембраны. Параметры модели обучены на выборке

размеченных одиночных последовательностей, доступной на сайте сервера ТМНММ. Этот сервер предсказывает положение мембранных участков на одиночной последовательности и не умеет работать с аминокислотным частотным профилем или с множественным выравниванием. Кроме того, в основе метода ТМНММ лежит алгоритм Витерби (см. [Krogh et al., 1994]), который применяется для нахождения оптимального пути и не может быть использован для построения вероятностного профиля. В предлагаемом в данной работе методе для формирования вероятностного профиля используется алгоритм forward-backward.

2) Построение тестовой выборки.

Для построения тестовой выборки были взяты все последовательности мембранных белков с известной пространственной структурой (442 белка) с сайта сервера PDBTM [Tusnady et al., 2005]. Далее были построены все попарные выравнивания с использованием программы CLUSTALW. Если встречали пары белков со сходством (identity) не менее 95%, то из них оставляли один. Далее проводили кластеризацию по попарному сходству методом ближайшего соседа с нижним порогом 20%. Если кластер оказывался размером более 20 белков, то нижний порог для него поднимали до тех пор, пока он не разделялся на меньшие кластеры. После этого рассматривали только кластеры с размером не меньше 3 белков. Для каждого кластера проводили множественное структурное выравнивание трехмерных структур белков с использованием сервера MAMMOTH [Lupyan et al., 2005]. Если качество выравнивания было очень низким (мало столбцов выравнивания, достоверных с точки зрения метода), то выкидывали самый дальний представитель кластера и кластер выравнивали вновь.

В результате использования данной процедуры получили 11 кластеров из 47 белков. Доля структурно надежных столбцов выравниваний находится в диапазоне от 24 до 86%, в среднем составляя 63%. Размер кластеров находится в диапазоне от 3 до 6 белков, средний размер - 4 белков. Далее проверяли принадлежность белков кластеров к структурным семействам по классификации SCOP [Murzin et al., 1995] и CATH [Orengo et al., 1997]. В одном кластере обнаружили двухдоменную структуру, причем есть белки, в которых присутствует только один из двух домеиов. В одном кластере имеются белки, структурные семейства которых в обеих классификациях не обозначены.

3) Построение достоверной мембранной разметки.

В каждом белке каждого кластера разметили участки белковой последовательности, лежащие в мембране, на основе алгоритма TMDET [Tusnady et al., 2005], определяющего наиболее вероятное положение мембраны в трехмерной структуре. Для того чтобы избежать ошибочной классификации участка белковой цепи как мембранного из-за

неточного предсказания положения мембраны алгоритмом ТМОЕТ, были введены "серые'' области но краям мембраны толщиной в 5 ангстрем. Если какой-то участок белковой цепи лежит только в "серой" области, то он не считался мембранным. Разметки наносили на структурные выравнивания, и на этой основе сформировали общую мембранную разметку (мембранные ядра), В ядра пошли те колонки структурного выравнивания, в которых все без деленной н ые позиции помечены как мембранные. Руководствуясь выходной информацией сервера МАММОТП о достоверности структурного выравнивания в тех или иных столбцах, отобрали ядра, где две трети столбцов имеют выравнивание, достоверное с точки зрения МАММОТН, а также длина которых не меньше пяти столбцов.

Всего в результате работы процедуры получили 56 мембранных ядер; в среднем, на выравнивание приходится 5 ядер; количество ядер в выравнивании колеблется между 1 и 12, Распределение длин ядер представлено на рисунке 1.

Рисунок 1. Гистограмма распределеавя длин мембраквы! ядер.

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 Еще

Длина мембран кого ядра

4) Метод предсказания мембранной разметки по выравниванию.

Предлагаемый в данной работе метод Р\\ФВСК, основанный на описанном выше алгоритме формирования трансмембранного вероятностного профиля, проверяли на множественных выравниваниях. Разметку на мембранные участки формировали гак, что столбцы, вероятность нахождения которых в мембране была не меньше 0.8, объявляли мембранными, Если встречалось менее пяти мембранных столбцов, стоящих вместе, то нх не считали мембранными.

5) Оценка качества работы метода ТМНММ.

Для того чтобы убедиться в том, что метод предсказания мембранной разметки, опирающийся на выравниванне, работает лучше, чем методы имеющие дело только с одной последовательностью, проверяли качество работы метода ТМНММ для каждой белковой последовательности каждого кластера. С этой целью для каждой

последовательности формировали "сужение" информации о достоверности столбцов в структурном выравнивании соответствующего кластера путем выбрасывания столбцов, в которых рассматриваемая последовательность имеет делецию. Аналогично строили разметку последовательности на ядра, которая есть сужение разметки на ядра всего выравнивания. Далее, к разметке последовательности на ядра и к разметке, предсказанной методом ТМНММ, применяли фильтр, позволяющий игнорировать мембранные участки и ядра с малой длиной и с малой степенью пересечения с "маской достоверности". Результат приведен в таблице 4 напротив пункта "ТМНММ".

Таблица 4. Качества предсказания мембранной разметки разными методами.

Метод Качество

FWDBCK 91%

ТМНММ 78%

6) Оценка качества предсказания.

Прежде чем оценивать качество предсказанной разметки, из нее выкидывают те мембранные участки, которым нельзя доверять. Полагали, что участку можно доверять, если две трети покрываемых им столбцов имеют структурное выравнивание, достоверное с точки зрения MAMMOTH, а также, если длина участка не меньше пяти столбцов. Для каждого метода предсказания и для каждого кластера была посчитана величина оценки качества. Она рассчитывается как число ядер, в каждом из которых хотя бы 50% столбцов покрыты любым предсказанным участком, деленное на максимум из числа ядер и числа предсказанных участков. Как видно из табл.4, лучшие результаты дает метод FWDBCK. Результаты.

На данный момент развития биоинформатики ощущается нехватка данных по мембранным белкам, на которых можно проверять качество работы методов автоматического предсказания положений мембранных участков и методов, строящих множественные выравнивания аминокислотных последовательностей. В секции базы данных Balibase [Bahr et al., 2001], посвященной мембранным белкам, для большей части выравниваний не представлена мембранная разметка, которая могла бы быть получена на основе анализа известных трехмерных структур, а также не выделяются столбцы, выравниванию в которых можно доверять с точки зрения метода, строящего структурные выравнивания.

В данной работе построена выборка кластеров мембранных белков, где для каждого кластера построено структурное множественное выравнивание и нанесены мембранные ядра, т.е. группы столбцов, "мембранность" которых подтверждена структурой каждого белка кластера. Хотя ядра имеют среднюю длину 15.5, которая немного меньше, чем 21

(общепринятая средняя длина мембранного участка белковой цепи), но при этом они не содержат сомнительные столбцы. Также выделены столбцы, достоверные с точки зрения метода структурного выравнивания. Таким образом, данная выборка (несмотря на малый размер) может с уверенностью быть использована для проверки качества методов, предсказывающих мембранную разметку или строящих множественные выравнивания.

С другой стороны, разработан метод формирования мембранного вероятностного профиля. Адекватность метода проверена на основе предсказания по нему мембранной разметки (см. Р\ТОВСК в табл.4). Качество этого предсказания оказалось несколько лучше, чем у наиболее точных методов, в которых не прибегают к гомологичному поиску в дополнительном банке данных.

Также такой профиль может быть использован при построении множественных выравниваний последовательностей мембранных белков. Если метод выравнивания "прогрессивный", то на каждом шаге соединения профилей двух подвыравниваний в один, можно улучшать результирующее выравнивание, варьируя для каждого столбца такие параметры, как матрица замен, штрафы за открытие и продолжение делеций, в зависимости от того, какова вероятность для аминокислот данного столбца лежать в мембране. Кроме того, разработан интернет-сервер, где пользователь может для своего выравнивания получить мембранный вероятностный профиль, доступный по адресу Ьир:/^ю1п£ fbb.msu.ru/fwdbck/.

В главе 5 описан метод ориентации спиралей мембранных белков при формировании канала. Как уже неоднократно отмечалось, трудно переоценить важность мембранных белков с точки зрения процессов жизнедеятельности клетки. Поэтому установление для этих белков функции или даже специфичности к субстрату является не просто частью процесса аннотации генома, но представляет биологический интерес как возможность улучшения понимания клеточного метаболизма. В последнее время появляется все больше экспериментальных работ, показывающих, что специфичность к субстрату у транспортных белков определяется структурой транспортного канала. Это. значит, что умение находить аминокислотные остатки, формирующие канал транспортных белков, могло бы улучшить наше понимание общих свойств этих белков, а значит и помочь в определении их специфичности к субстратам.

Однако также не является секретом (и уже обсуждался) тот факт, что из-за трудностей, связанных с рентгеноструктурным анализом мембранных белков, в этом белковом классе известно довольно мало кристаллографических пространственных структур, всего лишь сотни против десятков тысяч единиц по белкам в целом. В этой

ситуации с целью получения приблизительного представления о структуре белков разработан ряд методов предсказания положений мембранных участков (или сегментов) белковой цепи. В качестве исходного пункта используется различие в статистических свойствах аминокислот, находящихся в мембране, от тех, что лежат на границе или вне мембраны. Однако, как бы ни старались разработчики методов предсказания улучшать качество их работы на небольшом количестве известных структур, в результате имеется ситуация, когда имеющиеся методы не очень хорошо согласуются друг с другом на последовательностях с неизвестной структурой и, каждый в отдельности, дают достаточно различающиеся результаты для белков, схожих по последовательности.

В главе о матрицах замен была описана идея мембранных (ТМ) ядер, как сегментов последовательностей мембранных белков, для которых выполнено два вида согласований, во-первых, согласие нескольких методов предсказания относительно "мембранности" данного сегмента, и, во-вторых, близость положений мембранных сегментов для близких гомологов. Дальнейший анализ статистических свойств аминокислот ТМ-ядер направлен на выявление особенностей, позволяющих идентификацию аминокислотных остатков, формирующих транспортный канал белка. Подход представляется корректным, т.к. ТМ-ядра по построению тяготеют к тому, чтобы покрывать центральную часть реальных мембранных сегментов.

При анализе использовались 18558 ТМ-ядер из 2172 белков выборки бактериальных вторичных транспортеров (классификация Сайера-Пулсена). Процедура формирования выборки и построения ядер описана в главе, посвященной матрицам замен. Основой анализа являлась гипотеза о том, что в альфа-спиралях, образующих мембранный канал, присутствует нерегулярность распределения аминокислот, а именно, что аминокислоты двух групп, заряженные/полярные (К, Я, Н, (}, О, Е, К) и ароматические (Р, У), предпочитают смотреть в канал, чередуясь друг с другом, т.е. находясь на разных витках спирали.

1) Позиционная корреляция для групп аминокислот.

Итак, первая задача состояла в том, чтобы проверить закономерность встречаемости заряженных и ароматических аминокислот на определенных расстояниях по положению в последовательности в мембранных сегментах. Для этого рассмотрим идею позиционной корреляции групп аминокислот. Пусть у нас имеется две непересекающиеся группы аминокислот А и В. Кроме этого мы имеем М фрагментов мембранных сегментов (ТМ-ядра), где фрагмент под номером к имеет длину /* и содержит аминокислоты х? при 1 << 1к■ Теперь рассмотрим величины А'„, которые составляют количество пар аминокислот, находящихся на расстоянии п-1 остатков, где первая аминокислота принадлежит группе А,

М I, М Дбб

а вторая - группе 5. Т.е. №п = ,где 1°{х) = < ' -индикатор

принадлежности аминокислоты к группе. Кроме этого, для того, чтобы описать количество пар аминокислот, ожидаемое по случайным причинам нам понадобятся следующие величины. Количество мест в ядрах, где можно расположить пары аминокислот на и

расстоянии п: = ^Г (1к - л), и частота встречаемости в выборке ядер аминокислот из м

и К / и

каждой из групп: р0 = / > гДе О - рассматриваемая группа. Теперь можно

4=1 /«1 / 4»1

определить коэффициент позиционной корреляции, соответствующий расстоянию и, согг(п)=-Л'" —

______ м

Рисунок 2. Позиционная корреляция заряженных/полярных и ароматических аминокислот.

аосбт

На рисунке 2 приведен график функции корреляции аминокислот двух групп от расстояния между группами. Видно, что представители из группы полярных и заряженных аминокислот предпочитают находиться на расстоянии в 3-4 остатка от представителей группы ароматических аминокислот. Таким образом, аминокислоты этих двух групп лежат на одной стороне спирали. Мы предполагаем, что это сторона, смотрящая в канал, и называем эти аминокислоты (К, II, I I, О, О, Е, N. Г, XV, У) канальными. Канальные аминокислоты объединяет то, что частоты их встречаемости в ТМ-ядрах значительно ниже частот, наблюдаемых для белков в целом.

Для того чтобы проверить, можно ли рассчитывать на канальные аминокислоты при предсказании ориентации канальной части спирали, была построена гистограмма распределения количества канальных аминокислот в ТМ-ядрах (см. рис.3). Как видно, все ТМ-ядра содержат хотя бы одну канальную аминокислоту, а в среднем на ТМ-ядро приходятся 3.1 аминокислот. Таким образом, видно, что канальных аминокислот достаточно, чтобы давать ощутимый достаточный вклад при расчете канальной стороны

спиралей, и можно перейти к разработке алгоритма предсказания ориентации спиралей и проверке о его работы на реальных структурах

Рисунок 3. Гистограмма распределения количества канальных аминокислот в ТМ-ядрах.

10

2) Аминокислотные веса склонности смотреть в канал.

Кроме наиболее популярной системы весов аминокислот Кайта и Дулитла [Куге е[ а!., 1982], используемой для предсказания положения мембранных спиралей, были предложены еще две системы весов, отражающие предпочтение аминокислот находиться в мембране (а если брать веса со знаком минус, то предпочтение смотреть в канал):

Р^ = и = !о£ ——, где /„"" - частота аминокислоты а в ТМ-ядрах, -

и/д 1 ^

частота а в белках асюбще.

Предложенные веса были сравнены с более чем 80 известными системами весов, предлагавшимися в публикациях для предсказания положения мембранных спиралей. Для сравнения строился коэффициент корреляции наборами значений. Система оказалась ближе всего к системе Энгельмана [Кпце!гпан е( а!., 1986], а система Р^ наиболее коррелируй'с системой, предложенной Эйзенбергом [1:15опЬег^ Л а!., 1984]. Если срапнить обе системы весов с системой Кайта и Дулитла, получаем коэффициент корреляции 0.84.

3) Канальный момент

Метод определения канального момента, т.е. вектора, перпендикулярного оси спирали, направленного в канал, состоит в следующем. Вначале определяется вектор

С(у) = -^Гг/^' > где г, - радиус-вектор (т.е. вектор, смотрящий из центра спирали) 1-й 1

аминокислоты спирали, а, - /-я аминокислота, у= 1,2. После этого канальньш момент

вычисляется как проекция вектора С1У> на плоскость, перпендикулярную оси спирали.

Для проверки качества предсказания направления в канал была сформирована тестовая выборка спиралей с известным канальным направлением. Рассматривались только белки, имеющие канал или внутреннюю впадину и распознаваемый слой спиралей,

окружающих чту шадаку н пересекающих мембрану. На момент середины 2002 года нашлось 6 белкой с уникальной структурой: 1FBB (bacteriorhodopsin, liai о bacterium salinarum), ¡El2 (light-driven chloride pump, Halobaetcrium salinarum), 11168 (sensory rhodopsin II, Nationomunas pharaonis), IFX8 (glycerol-conducting channel, Escherichia coli), I MSI. (mechanosensitive ion channel M KCL homolog, chai" A, Mycobacterium tuberculosis), 113L8 (КС S A, potassium channel, chain A, Strcptomyces Ii vi dans). Всего выборка спиралей с известной стороной, прилегающей к каналу, составила 32 спирали. Результаты.

Для 32 спиралей тестовой выборки были подсчитаны канальные моменты лля трех весовых систем ( Р^'КР^1' и Кайта-Дулитла). Эти направления можно рассматривать как предсказывающие положение канала относительно спирали. На рисунке 4 приведены распределения угла между реальным и предсказанным направлениями в канал для спиралей выборки. Видно, что большая часть распределения приходится на диапазон от -60 до 60 градусов.

Рисунок 4. Распределение угла лежду реальный н предсказанным для мембранной спирали направлением в канал для различны! весовых систем.

angle, degrees

В главе 6 предлагается подход яда улучшения предсказания мембранных сетменкж в случае белков семейства MIP. Эта белки выполняют в клетке довольно важную функцию, катализируя свободную диффузию специфических молекул (молекулы воды и т.д.). К семейству MIP также относят белки, пропускающие глиаерол, пропанедиол и др. Велки этого семейства обладают особой структурой, при которой вместо одной из спиралей присутствуют две половинки, состыковывающиеся в середине мембраны. Рассматриваемый тип структур нарушает общепринятый подход, используемый во многих программах и нэб-серверах для предсказания положения мембранных сегментов белковую структуру, при котором аминокислотная цепь пересекает мембрану, поочередно выхода из

нее то с одной стороны, то с другой. И если мы попробуем применить к таким структурам стандартные методы предсказания мембранной разметки, то получим не очень высокое качество предсказания мембранной структуры. Например, признанный лучшим метол Предсказания НММТОР, точно предсказывает мембранную разметку (не включая полу-спирапсй) только для 78% мембранных белков семейства МГР. Логично предположить, что информацию о специфической структуре белков этого семейства можно использоваться улучшения предсказания мембранной структуры.

Рис,5. Фрагменты вырашшпвниа последовательностей мембранных полу-спнрвлен".

* серы.ч выделены обычные иеыбр&ныые спнрлш, черным - полу-спирали, положение сл[фалсн определено по пространственной структуре с использованием алгоритма TMDET[T3], о. : ;:ч;: -|.г:. ориентирующего мембрану.

Для поиска пары сегментов, соответствующих полу-спиралям. применимы такие достаточно простые методы, как поиск по шаблону или консенсусу, т.к. структура эти?: областей достаточно жесткая, l ía рис.5 приведены фрагменты выравнивания последовательностей белков с известной пространственной структурой В этой ситуации был предложен простой метод совмещения двух предсказаний, нужно фиксировать положения двух полу-сп и рал ей, удалить их из последовательности и определять остальные сегменты, анализируя отдельно три части последовательности, оставшиеся после удаления Тогда информация о положении этих фрагментов будет уточнять определение положений остальных сегментов

Тогда как метод НММТОР ни для одного из 74 белков вышеописанной выборки не опознал полу-спирали и правильно предсказал остальные спирали только для 78% белков, предлагаемый метод дает 92%-е качество предсказания мембранной разметки

írxe А

íufea 1rc2_b 1FQY_A 1ji»_a lsor_a 1YMGA is6e_a

i ГАЙ_Л

1ldf~a 2eto~a iufeta 1kc2~b 1 fqy~a

lSOR_ h IMG "A 1s 6e~a

Выводы.

1. Построена серия матриц частот замен аминокислот в мембранных областях бактериальных транспортных белков, изучены статистические свойства матриц серии, отличающие их от общепринятых матриц замен, а также выявлены отличия в частотах замен между матрицами для бактериальных и эукариотических мембранных областей.

2. Разработан метод предсказания положений мембранных областей для множественного выравнивания с построением вероятностного мембранного профиля на базе скрытых Марковских моделей.

3. Построена выборка структурных множественных выравниваний с разметкой достоверных столбцов и реальных положений мембранных областей, которая может применяться для проверки работы не только методов предсказания мембранной структуры для множественных выравниваний, но и методов построения множественных выравниваний последовательностей, относящихся к классу мембранных белков.

4. Выявлены статистические закономерности встречаемости аминокислот в мембранных областях, позволяющие предсказывать взаимное расположение спиралей и транспортного канала в мембранных альфа-спиральных белках, а также разработан метод д ля таких предсказаний.

5. Исследована возможность улучшения предсказания мембранной структуры для белков семейства MIP, имеющих необычную укладку альфа-спиралей, используя дополнительную информацию об аминокислотных подписях полу-спиралей.

Список публикаций по теме диссертации.

1. Садовская Н.С., Сутормин P.A., Рахманинова А.Б., Гельфанд М.С. Сравнительный анализ программ, предсказывающих трансмембранные сегменты в трансмембранных белках. 2002. Информационные процессы, том 2,1, стр. 96-99

2. Sutormin R.A., Rakhmaninova A.B., Gelfand M.S. BATMAS30: amino acid substitution matrix for alignment of bacterial transporters. Proteins. 2003. 51, 85-95.

3. Kalinina O.V., Makeev V.J., Sutormin R.A., Gelfand M.S., Rakhmaninova A.B. The channel in transporters is formed by residues that are rare in transmembrane helices. 2003. In Silico Biol. 3(1-2), 197-204.

4. Сутормин P.A., Миронов A.A. Вероятностный метод предсказания трансмембранных участков по множественному выравниванию аминокислотных последовательностей. 2006. Молекулярная биология. 40(3), 541-545.

5. Sadovskaya N.S., Sutormin R.A., Gelfand M.S. Recognition of transmembrane segments in proteins: review and consistency-based benchmarking of internet servers. 2006. J Bioinform Comput Biol. 4(5), 1033-1056.

6. Kalinina O.V., Makeev V.Ju., Sutormin R.A., Gelfand M.S., Rakhmaninova A.B. Rare residues form the chanel in transmembrane transporter proteins. International Conference "Bioinformatics of Genome Structure and Regulation" BGRS'2002. July 14-20,2002. Novosibirsk, Russia, vol.3,100-103.

7. Sadovskaya N.S., Sutormin R.A., Rakhmaninova A.B., Gelfand M.S. Benchmarking of programs for recognition of transmembrane segments in transporter proteins. International Conference "Bioinformatics of Genome Structure and Regulation" BGRS'2002. July 14-20, 2002. Novosibirsk, Russia, vol.3, 115-116.

8. Sutormin R.A., Rakhmaninova A.B., Gelfand M.S., BATMAS30 - the amino acid substitution matrix for alignment of bacterial transporters. International Conference "Bioinformatics of Genome Structure and Regulation" BGRS'2002. July 14-20, 2002. Novosibirsk, Russia, vol.3, 90-92.

9. Сутормин P.А. Методы предсказания вторичной структуры мембранных альфа-спиральных белков. Международная школа "Биоинформатика, геномика, протеомика". 11 18 апреля, 2006. Алма-Ата, Казахстан, 56-58.

Благодарпоста: Автор выражает искреннюю благодарность своим научным руководителям, Андрею Александровичу Миронову, Михаилу Сергеевичу Гельфанду и Всеволоду Юрьевичу Макееву, за руководство, помощь и поддержку при выполнении диссертации, а также Ольге Калининой, Наталье Садовской и Галине Ковалевой за участие, ценные советы и продуктивное обсуждение.

Подписано в печать 15.02.2007 Формат 60x88 1/16. Объем 1.75 п.л. Тираж 50 экз. Заказ № 604 Отпечатано в ООО «Соцветие красок» 119992 г.Москва, Ленинские горы, д.1 Главное здание МГУ, к. А-102

Содержание диссертации, кандидата физико-математических наук, Сутормин, Роман Александрович

1. Введение.

1.1. Актуальность темы.

1.2. Цели и задачи работы.

1.3. Научная новизна.

1.4. Практическая значимость.

1.5. Апробация работы.В

2. Обзор литературы.

2.1. Мембранные белки.

2.2. Эволюция мембранных белков.

2.3. Важность трансмембранных белков.

2.4. Классификация трансмембранных белков по Сайеру.

2.5. Кристаллизация мембранных белков.

2.6. Вторичная структура мембранных альфа-спиральных белков.

2.7. Скрытые марковские модели.

2.8. Матрицы замен.

2.9. Сравнение структур мембран бактерий и эукариот.

2.10. Использование НММ для разметки мембранных альфа-спиральных сегментов

2.11. Позиции, определяющие специфичность.

3. Эволюционные особенности аминокислотных последовательностей мембранных белков бактерий и эукариот.

3.1. Методы.

3.1.1. Основная выборка (бактериальные транспортеры).

3.1.2. Кластеризация и выравнивание.

3.1.3. Определение мембранных ядер.

3.1.4. Построение матриц частот замен.

3.1.5. Контрольные выборки.

3.2. Обсуждение результатов.

3.2.1. Мембранные сегменты и ТМ-ядра основной выборки.

3.2.2. Аминокислотный состав ТМ-ядер основной выборки.

3.2.3. Внутренняя согласованность матриц серии BATMAS.

3.2.4. Сравнение матриц.

3.2.5. Свойства матрицы BATMAS30.

3.2.6. Функциональная схожесть аминокислот в ТМ-ядрах.

3.3. Подведение итогов.

4. Предсказание вторичной структуры мембранных белков.

4.1. Методы.

4.1.1. Построение тестовой выборки.

4.1.2. Построение достоверной мембранной разметки.

4.1.3. Методы предсказания мембранной разметки по выравниванию.

4.1.4. Оценка качества работы метода ТМНММ.

4.1.5. Оценка качества предсказания.

4.2. Обсуждение результатов.

4.3. Использование метода FWDBCK в качестве модуля алгоритма SDPPred.

5. Канальная ориентация спиралей мембранных белков.

5.1. Методы.

5.1.1. Позиционная корреляция для групп аминокислот.

5.1.2. Аминокислотные веса склонности смотреть в канал.

5.1.3. Канальный момент.

5.2. Результаты.

6. Предсказание и анализ трансмембранных сегментов каналов семейства MIP.

6.1. Описание процедур и алгоритмов.

6.2. Результаты.

Выводы.

Введение Диссертация по биологии, на тему "Использование вероятностных методов для анализа аминокислотных последовательностей мембранных белков"

1.1. Актуальность темы

Мембранные белки играют важную роль в жизнедеятельности клетки. По функциональной нагрузке можно различать мембранные белки, задействованные в таких важных процессах жизнедеятельности в клетке, как селективный транспорт, запасание энергии, передача сигналов между клетками, преобразование энергии света в бактериях, сортировка белков между отделами клетки. По средним оценкам мембранные белки составляют 20-30% всего протеома клетки. Альфа-спиральные белки составляют подавляющее большинство мембранных белков, и в геноме типичной бактериальной клетки кодирующих их генов приблизительно в 10 раз больше, чем генов бета-слойных белков. В то же время метод рентгеноструктурного анализа, позволяющий установить пространственную структуру белков, в случае мембранных белков работает плохо, что связано с высокой гидрофобностью этих белков, вследствие чего на сегодняшний день известно не более 160 уникальных трехмерных структур мембранных белков.

В тех случаях, когда об альфа-спиральном мембранном белке неизвестно ничего кроме его аминокислотной последовательности, используют методы предсказания вторичной структуры, а точнее расположения участков последовательности находящихся в мембране. Такие участки приблизительно совпадают с альфа-спиралями белка, пересекающими мембрану. Качество лучших из этих методов по оптимистическим оценкам составляет около 80%. Впрочем, оценки качества различных методов в различных работах сильно разнятся.

Знание информации о вторичной структуре приближает нас к пониманию пространственной структуры, но кроме этого помогает улучшить чувствительность гомологического поиска и точность автоматического приписывания белку функции. Задача предсказания вторичной структуры мембранных белков была сформулирована уже более 20 лет назад, после чего предлагались различные методы решения этой задачи. Наиболее эффективными признаны методы, основанные на скрытых Марковских моделях (НММ), где решается задача наилучшей в смысле статистического соответствия укладки аминокислотной последовательности на цепь состояний, следуя ребрам переходов. К таким методам можно причислить ТМНММ, НММТОР. В ряде методов (PHDhtm, MEMSAT) для предсказания используется дополнительная эволюционная информация, формируемая в виде выравниваний или частотных профилей.

При разработке методов предсказания мембранной структуры важной является проблема формирования обучающей выборки, т.е. выборки последовательностей, для которых известно точное расположение мембранных сегментов, в условиях нехватки данных по известным структурам мембранных белков. Авторам сервера ТМНММ удалось сформировать выборку из 160 аминокислотных последовательностей с экспериментально установленной разметкой мембранных сегментов. Выборка доступна на сайте сервера.

В связи с ростом геномных данных, все большую важность приобретают методы сравнительного анализа последовательностей, главными среди которых являются множественное (или попарное) выравнивание и поиск гомологий. Эти задачи немного различаются, но в обеих в случае белков элементарной единицей, подлежащей оценке, является пара аминокислотных остатков из двух последовательностей, а сама оцениваемая величина - это правдоподобность того, что эти аминокислоты происходят из общей предковой аминокислоты. Маргарет Дэйхофф предложила описывать эволюцию в белках Марковской моделью, в которой предполагались независимость изменения соседних аминокислот и независимость скоростей изменений от времени. В соответствии с моделью была построена известная серия РАМ матриц частот замен для различных эволюционных расстояний. Проблемой этого метода было то, что вначале строилась матрица для очень близких последовательностей, а по ней строились все остальные матрицы, что должно приводить к накоплению ошибок, допущенных на начальном этапе.

Позднее был предложен другой подход, основанный на анализе консервативных блоков множественных выравниваний, т.е. подсчете частот пар букв, встречаемых в блоках. Для того чтобы строить матрицы на разных эволюционных расстояниях, наборы слишком близких фрагментов в блоках заменялись одним. Серия матриц, построенная этим методом, была названа BLOSUM.

В случае мембранных белков стандартные методы выравнивания работают не так хорошо как для глобулярных белков, особенно в т.н. "серой" зоне идентичности между последовательностями от 20% до 30%. Это связано с тем, что мембранные сегменты отличаются по статистическим свойствам от последовательностей глобулярных белков. Для учета этих особенностей разумно использовать, как минимум, еще одну матрицу (или серию матриц), соответствующую мембранным сегментам. Серия JTT РАМ таких матриц была построена с применением методики, аналогичной той, что использовала Дэйхофф. Для подсчета мутаций были сформированы 3155 попарных выравниваний с идентичностью между последовательностями не менее 85%. Позднее к построению мембранной матрицы замен был применен подход, аналогичный BLOSUM. Из 2935 семейств родственных белковых последовательностей были выделены 8909 консервативных блоков. После применения алгоритма PHDhtm предсказания мембранной структуры было отобрано 844 блока, покрывающие мембранные сегменты. Серию матриц, также построенную кластеризацией фрагментов с идентичностью, превосходящей серию порогов, назвали PHDhtm. В обоих случаях объемы исходных данных кажутся недостаточными для достижения хорошей статистической достоверности.

Заключение Диссертация по теме "Биофизика", Сутормин, Роман Александрович

Выводы.

В рамках данной работы решены следующие задачи:

1. Построена серия матриц частот замен аминокислот в мембранных областях бактериальных транспортных белков, изучены статистические свойства матриц серии, отличающие их от общепринятых матриц замен, а также выявлены отличия в частотах замен между матрицами для бактериальных и эукариотических мембранных областей.

2. Разработан метод предсказания положений мембранных областей для множественного выравнивания с построением вероятностного мембранного профиля на базе скрытых Марковских моделей.

3. Построена выборка структурных множественных выравниваний с разметкой достоверных столбцов и реальных положений мембранных областей, которая может применяться для проверки работы не только методов предсказания мембранной структуры для множественных выравниваний, но и методов построения множественных выравниваний последовательностей, относящихся к классу мембранных белков.

4. Выявлены статистические закономерности встречаемости аминокислот в мембранных областях, позволяющие предсказывать взаимное расположение спиралей и транспортного канала в мембранных альфа-спиральных белках, а также разработан метод для таких предсказаний.

5. Исследована возможность улучшения предсказания мембранной структуры для белков семейства МГР, имеющих необычную укладку альфа-спиралей, используя дополнительную информацию об аминокислотных подписях полуспиралей.

Библиография Диссертация по биологии, кандидата физико-математических наук, Сутормин, Роман Александрович, Москва

1. Al. Arai М., Mitsuke Н., Ikeda М., Xia J.X., Kikuchi Т., Satake М., Shimizu Т. 2004. ConPred II: a consensus prediction method for obtaining transmembrane topology models with high reliability. Nucleic Acids Res. 32:390-393.

2. A2. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman DJ. 1990. Basic local alignment search tool. J Mol Biol. 215(3):403-410.

3. A3. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25(17):3389-3402.

4. A4. Argos P., Rao J.K., Hargrave P.A. 1982. Structural prediction of membrane-bound proteins. Eur J Biochem. 128(2-3):565-575.

5. A5. Arkin I.T., Brunger A.T. 1998. Statistical analysis of predicted transmembrane alpha-helices. Biochim Biophys Acta. 1429(1):113-128.

6. A6. Altschul S.F. 1991. Amino acid substitution matrices from an information theoretic perspective. J Mol Biol. 219(3):555-565.

7. A7. Agre P., King L.S., Yasui M., Guggino W.B., Ottersen OP, Fujiyoshi Y, Engel A, Nielsen S. 2002. Aquaporin water channels--from atomic structure to clinical medicine. J Physiol. 542:3-16.

8. A8. Alberts В., Johnson A., Lewis J., Raff M., Roberts K., Walter P. Molecular Biology of the Cell. Garland Publishing Inc. Hamden, Connecticut, 2002.1616 p.

9. Bl. Bairoch A., Boeckmann B. 1994. The SWISS-PROT protein sequence databank: current status. Nucleic Acids Res. 22(17):3578-3580.

10. B2. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N., Bourne P.E. 2000. The Protein Data Bank. Nucleic Acids Res. 28(l):235-242.

11. C2. Cserzo M., Eisenhaber F., Eisenhaber В., Simon I. 2004. TM or not TM: transmembrane protein prediction with low false positive rate using DAS-TMfilter. Bioinformatics. 20(1):136-137.

12. C8. Chattopadhyay M.K. 2006. Mechanism of bacterial adaptation to low temperature. J. Biosci. 31(1): 157-165.

13. Dl. Durbin R., Eddy S., Krogh A., and Mitchison G. 1998. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. 356 pp.

14. D2. Dayhoff M., Schwartz R., Orcutt B. 1978. A model of evolutionary change in protein. Atlas of Protein Sequence and Structure (Natl. Biomed. Res. Found., Washington). 5(3): 345-358.

15. D3. Do C.B., Mahabhashyam M.S., Brudno M., Batzoglou S. 2005. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15,330-340.

16. D4. Dowhan W. 1997. Molecular Basis For Membrane Phospholipid Diversity: Why Are There So Many Lipids? Annu. Rev. Biochem. 66:199-232.

17. El. Engelman D.M., Steitz T.A., Goldman A. 1986. Identifying nonpolar transbilayer helices in amino acid sequences of membrane proteins. Annu Rev Biophys Biophys Chem. 15:321353.

18. E2. Eisenberg D., Schwarz E., Komaromy M., Wall R. 1984. Analysis of membrane and surface protein sequences with the hydrophobic moment plot. J Mol Biol. 179(1): 125-142.

19. E3. El Karkouri K., Gueune H., Delamarche C. 2005. MIPDB: a relational database dedicated to МЕР family proteins. Biol Cell. 97(7):535-543.

20. Fl. Frishman D., Mewes H.W. 1997. Protein structural classes in five complete genomes. Nat Struct Biol. 4(8):626-628.

21. F2. Frishman D., Mokrejs M., Kosykh D., Kastenmuller G., Kolesov G., Zubrzycki I., Gruber C., Geier В., Kaps A., Albermann K., Volz A., Wagner C., Fellenberg M., Heumann K., Mewes H.W. 2003. The PEDANT genome database. Nucleic Acids Res. 31(1):207-211.

22. F3. Felsenstein J. 1996. Inferring phylogenies from protein sequences by parsimony, distance, and likelihood methods. Methods Enzymol. 266:418-427.

23. F4. Fu D, Libson A, Miercke LJ, Weitzman C, Nollert P, Krucinski J, Stroud RM. 2000. Structure of a glycerol-conducting channel and the basis for its selectivity. Science. 290(5491):481-486.

24. Gl. Gonnet G.H., Cohen M.A., Benner S.A. 1992. Exhaustive matching of the entire protein sequence database. Science. 256(5062): 1443-1445.

25. G2. Gerstein M., Sonnhammer E.L., Chothia С. 1994. Volume changes in protein evolution. J. Mol. Biol. 236:1067-1078.

26. G3. Galperin M.Y., Koonin E.V. 2001. Comparative genome analysis. Methods Biochem Anal. 43:359-392.

27. HI. Henikoff S., Henikoff J.G. 1992. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci USA. 89(22):10915-10919.

28. H2. Hofmann K., Stoffel W. 1993. TMbase A database of membrane spanning proteins segments. Biol. Chem. Hoppe-Seyler. 374,166

29. H3. Hirokawa Т., Boon-Chieng S., Mitaku S. 1998. SOSUI: classification and secondary structure prediction system for membrane proteins. Bioinformatics. 14(4):378-379.

30. H4. Heringa J. 1999. Two strategies for sequence comparison: profile-preprocessed and secondary structure-induced multiple alignment. Comput. Chem. 23:341-364.

31. H5. Hannenhalli S.S., Russell R.B. 2000. Analysis and prediction of functional sub-types from protein sequence alignments. J Mol Biol. 303(l):61-76.

32. Jl. Jones D.T., Taylor W.R., Thornton J.M. 1994. A model recognition approach to the prediction of all-helical membrane protein structure and topology. Biochemistry. 33(10):3038-3049.

33. J2. Jones D.T., Taylor W.R., Thornton J.M. 1992. The rapid generation of mutation data matrices from protein sequences. Comput Appl Biosci. 8(3):275-282.

34. J3. Jones D.T., Taylor W.R., Thornton J.M. 1994. A mutation data matrix for transmembrane proteins. FEBS Lett. 339(3):269-275.

35. J4. Juretic D., Zoranic L., Zucic D. 2002. Basic charge clusters and predictions of membrane protein topology. J Chem Inf Comput Sci. 42(3):620-632.

36. J5. Jaroszewski L., Li W., Godzik A. 2002. In search for more accurate alignments in the twilight zone. Protein Sci. 11:1702-1713.

37. J6. Jones D.T. 1998. Do transmembrane protein superfolds exist? FEBS Lett. 423:281-285.

38. J7. Jones S., Thornton J.M. 2004. Searching for functional sites in protein structures. Curr Opin Chem Biol. 8(l):3-7.

39. Kl. Krogh, A., Larsson, В., von Heijne, G., and Sonnhammer, E.L. 2001. Predicting transmembrane protein topology with a hidden Markov model: Application to complete genomes. J. Mol. Biol. 305:567-580.

40. K2. Krogh A., Mian I.S., Haussler D. 1994. A hidden Markov model that finds genes in E. coli DNA. Nucleic Acids Res. 22:4768-4778.

41. КЗ. Krogh A., Brown M., Mian I.S., Sjolander K., Haussler D. 1994. Hidden Markov models in computational biology. Applications to protein modeling. J Mol Biol. 235(5):1501-1531.

42. K4. Klein P., Kanehisa M., DeLisi C. 1985. The detection and classification of membrane-spanning proteins. Biochim Biophys Acta. 815(3):468-476.

43. K5. Kalinina O.V., Mironov A.A., Gelfand M.S., Rakhmaninova A.B. 2004. Automatedselection of positions determining functional specificity of proteins by comparative analysis of orthologous groups in protein families. Protein Sci. 13(2):443-456.

44. K6. Kalinina O.V., Novichkov P.S., Mironov A.A., Gelfand M.S., Rakhmaninova A.B. 2004. SDPpred: a tool for prediction of amino acid residues that determine differences in functional specificity of homologous proteins. Nucleic Acids Res. 32: 424-428.

45. K7. Kaback H.R., Voss J., Wu J. 1997. Helix packing in polytopic membrane proteins: the lactose permease of Escherichia coli. Curr Opin Struct Biol. 7(4):537-542.

46. Ml. Mirus 0., Schleiff E. 2005. Prediction of beta-barrel membrane proteins by searching for restricted domains. BMC Bioinformatics. 6:254.

47. M2. Martelli P.L., Fariselli P., Casadio R. 2003. An ENSEMBLE machine learning approach for the prediction of all-alpha membrane proteins. Bioinformatics. 19(1):205-211.

48. M3. Muller Т., Spang R., Vingron M. 2002. Estimating amino acid substitution models: a comparison of Dayhoff s estimator, the resolvent approach and a maximum likelihood method. Mol Biol Evol. 19(1):8-13.

49. M4. Muller Т., Rahmann S., Rehmsmeier M. 2001. Non-symmetric score matrices and the detection of homologous transmembrane proteins. Bioinformatics. 17:182-189.

50. M5. Murzin A.G., Brenner S.E., Hubbard Т., Chothia C. 1995. SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol. 247:536540.

51. N1. Needleman S.B., Wunsch C.D. 1970. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 48(3):443-453.

52. N2. Nakai K, Horton P. 1999. PSORT: a program for detecting sorting signals in proteins and predicting their subcellular localization. Trends Biochem Sci. 24(l):34-36.

53. N3. Ng P.C., Henikoff J.G., Henikoff S. 2000. PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane. Bioinformatics. 16(9):760-766.

54. N4. Nilsson J, Persson B, von Heijne G. 2000. Consensus prediction of membrane protein topology. FEBS Letters. 267-269.

55. Overbeek R., Larsen N., Pusch G.D., D'Souza M., Selkov E. Jr, Kyrpides N., Fonstein M., Maltsev N., Selkov E. 2000. WIT: integrated system for high-throughput genome sequence analysis and metabolic reconstruction. Nucleic Acids Res. 28(1):123-125.

56. Okada Т., Palczewski K. Crystal structure of rhodopsin: implications for vision and beyond. Curr. Opin. Struct. Biol. 2001;11:420-426.

57. Orengo С.A., Michie A.D., Jones S., Jones D.T., Swindells M.B., Thornton J.M. 1997. CATH a hierarchic classification of protein domain structures. Structure. 5:1093-1108.

58. PI. Persson В., Argos P. 1997. Prediction of membrane protein topology utilizing multiple sequence alignments. J Protein Chem. 16(5):453-457.

59. P3. Persson В., Argos P. 1994. Prediction of transmembrane segments in proteins utilising multiple sequence alignments. J Mol Biol. 237(2):182-192.

60. P4. Paulsen I.T., Sliwinski M.K., Saier M.H. Jr. 1998. Microbial genome analyses: global comparisons of transport capabilities based on phylogenies, bioenergetics and substrate specificities. Mol. Biol. 277:573-592.

61. P5. Parodi L.A., Granatir C.A., Maggiora G.M. 1994. A consensus procedure for predicting the location of alpha-helical transmembrane segments in proteins. Comput Appl Biosci. 10:527535.

62. P6. Park J.H., Saier M.H. Jr. 1996. Phylogenetic characterization of the MIP family of transmembrane channel proteins. J Membr Biol. 153(3): 171-180.

63. Rl. Rost В., Fariselli P., Casadio R. 1996. Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Sci. 5(8): 1704-1718.

64. R2. Ren Q., Kang K.H., Paulsen I.T. 2004. TransportDB: a relational database of cellular membrane transport systems. Nucleic Acids Res. 32:284-288.

65. R3. Royant A., Nollert P., Edman K., Neutze R., Landau E.M., Pebay-Peyroula E., Navarro J. 2001. X-ray structure of sensory rhodopsin II at 2.1-A resolution. Proc. Natl. Acad. Sci USA. 98:10131-10136.

66. R4. Rost В., Liu J. 2003. The PredictProtein server. Nucleic Acids Res. 31:3300-3304.

67. Saier M.H. Jr. 2000. A functional-phylogenetic classification system for transmembrane solute transporters. Microbiol. Mol. Biol. Rev. 64(2):354-411.

68. Saier M.H. Jr, Tran C.V., Barabote R.D. 2006. TCDB: the Transporter Classification Database for membrane transport protein analyses and information. Nucleic Acids Res. 34:181-186.

69. Smith T.F., Waterman M.S. 1981. Identification of common molecular subsequences. J Mol Biol. 147(1):195-197.

70. Saier MH Jr. 1999. A functional-phylogenetic system for the classification of transport proteins. Cell Biochem. 32:84-94.

71. Sutormin R.A., Rakhmaninova A.B., Gelfand M.S. 2003. BATMAS30: amino acid substitution matrix for alignment of bacterial transporters. Proteins. 51:85-95.

72. Saitou N., Nei M. 1987. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 4:406-425.

73. Sonnhammer E.L., von Heijne G., Krogh A. 1998. A hidden Markov model for predicting transmembrane helices in protein sequences. Proc. Int. Conf. Intell. Syst. Mol. Biol. 6:175182.

74. Sutormin R.A., Mironov A.A. 2006. Membrane probability profile construction based on amino acids sequences multiple alignment. Mol Biol (Mosk). 40(3):541-545.

75. Tl. Tusnady G.E., Simon 1.1998. Principles governing amino acid composition of integral membrane proteins: Application to topology prediction. J. Mol. Biol. 283:489-506.

76. T2. Tusnady G.E., Dosztanyi Z., Simon 1.2005. PDBTM: selection and membrane localization of transmembrane proteins in the protein data bank. Nucleic Acids Res. 33:275-278.

77. T3. Tusnady G.E., Dosztanyi Z., Simon I. 2005. TMDET: web server for detecting transmembrane regions of proteins by using their 3D coordinates. Bioinformatics. 21(7):1276-1277.

78. Т4. Thompson J.D., Higgins D.G., Gibson T.J. 1994. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22:4673-4680.

79. T5. Tudos E., Cserzo M., Simon I. 1990. Predicting isomorphic residue replacements for protein design. Int J Pept Protein Res. 36:236-239.

80. VI. Viklund H., Elofsson A. 2004. Best alpha-helical transmembrane protein topologypredictions are achieved using hidden Markov models and evolutionary information. Protein Sci. 13(7):1908-1917.

81. Wl. White S.H. 2004. The progress of membrane protein structure determination. Protein Sci. 13(7):1948-1949

82. W2. Watson J.D., Laskowski R.A., Thornton J.M. 2005. Predicting protein function from sequence and structural data. Curr Opin Struct Biol. 15(3):275-284.

83. Zl. Zhou C., Zheng Y., Zhou Y. 2004. Structure prediction of membrane proteins. Genomics Proteomics Bioinformatics. 2(l):l-5.

84. Z2. Zhou H, Zhou Y. 2003. Predicting the topology of transmembrane helical proteins using mean burial propensity and a hidden-Markov-model-based method. Protein Sci. 12(7): 15471555.

85. Z3. Zhang H., Cramer W.A. 2005. Problems in Obtaining Diffraction-quality Crystals of Hetero-oligomeric Integral Membrane Proteins. J. Struct. Funct. Genomics. 6:219-223.

86. Z4. Zuckerkandl E., Pauling L. 1965. Molecules as documents of evolutionary history. J. Theor. Biol. 8:357-366.