Бесплатный автореферат и диссертация по биологии на тему
Применение иерархического подхода для выявления структурно-функциональных взаимосвязей в надсемействе цитохромов Р450
ВАК РФ 03.00.04, Биохимия

Автореферат диссертации по теме "Применение иерархического подхода для выявления структурно-функциональных взаимосвязей в надсемействе цитохромов Р450"

ргь од

- '3 Р(&£&ЙСКАЯ акааемия медицинских наук

НАУЧНО - ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ БИОМЕДИЦИНСКОЙ химии

На правах рукописи УДК 576.80/85 УДК 577.15.158

ЛЯШЕНКО Алла Анатольевна

ПРИМЕНЕНИЕ ИЕРАРХИЧЕСКОГО ПОДХОДА ДЛЯ ВЫЯВЛЕНИЯ СТРУКТУРНО-ФУНКЦИОНАЛЬНЫХ ВЗАИМОСВЯЗЕЙ В НАДСЕМЕЙСТВЕ ЦИТОХ РОМОВ Р450

(специальность 03.00.04 — биологическая химия)

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Москва — 1996

Работа выполнена в Институте биомедицинской химии Российской Академии Медицинских Наук

Научный руководитель:

академик РАМН, профессор Арчаков А.И.

Официальные оппоненты:

доктор биологических наук Иванов A.C.

доктор физико — математических наук Туманян В.Г.

Ведущая организация: Институт биохимии им. А.Н.Баха РАН

Защита диссертации состоится " " апреля 1996 года в часов на заседании специализированного Ученого Совета Д 001.10.01 при Институте биомедицинской химии РАМН по адресу: 119832, Москва, ул. Погодинская, 10.

С диссертацией можно ознакомиться в библиотеке Института биомедицинской химии РАМН.

Автореферат разослан " " марта 1996 года

Ученый секретарь

специализированного Ученого Совета, кандидат биологических наук

Былинкина B.C.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Основным предметом исследования в настоящей заботе является надсемейсгво цитохромов Р450. Цитохром —Р450 содержащие 'идроксилирующие системы обнаружены во всех царствах живой природы. Являясь монооксигеназой, цитохром Р450 способствует внедрению одного атома >юлекулы кислорода в субстрат, другой, как правило, расходуется на образование молекулы воды. Благодаря его распространенности и важности ¡ыполняемых функций, эти гемопротеины являются как наиболее ^следованными, так и наиболее исследуемыми ферментами в настоящее время. \авинообразное увеличение числа открываемых последовательностей Р450, )Собенно за последние годы (последняя редакция номенклатурного списка (итохромов Р450, созданная Nelson и соавторами (1995), содержит около 500 енов), создало определенные трудности в систематизации знаний об этой руппе гем —тиолатных ферментов, а также привело к необходимости анализа [ерархии семей и подсемей в надсемействе.

Цитохромы Р450, по —видимому, произошли от одного общего редшествешшка, последовательности — прародителя, общие черты которого меет консенсусная последовательность падсемейства Р450. Очевидно, что ерархическая организация подобных биологических систем является езультатом их длительного филогенетического развития. Поэтому, чтобы понять рироду такого многообразия цитохромов Р450, необходимо изучить ряд спектов, касающихся их эволюционного происхождения.

При анализе первичных последовательностей CYP450, объединяющихся в эмьн и подсемьи, встает вопрос о механизме такого объединения, '[олекулярно — генетическая основа надсемейства Р450 не подчиняется закону эдин ген —один белок". Наряду с мультигенными семействами, в которых аждая последовательность имеет свой ген, встречаются семьи, где, благодаря ртологичности генов, члены одного (под)семейства произошли от одного гена, ипичным примером таких семейств являются семейства CYP1, CYP5, CYP7, YP11, CYP17, CYP19, CYP21 (Nelson et al„ 1995). Какими правилами необходимо /ководствоваться, чтобы белки могли, формируя иерархию в надсемействе диничная последовательность —подсемья —семья), объединяться в тесно ¡язанные группы? Почему представители разных семей, имеющих довольно :1зкую (от 20%) степень идентичности аминокислотных последовательностей,

имеют общую функцию, и, кроме того, согласно Наэетапп е1 а1. (19Э5) характеризуются сходной укладкой полипептидной цепи? Все эти вопросы требуют решения.

Цели и задачи исследования. Цель настоящей работы: выявить структурно —функциональные взаимосвязи в надсемействе цитохромов Р450, используя иерархический подход. Для решения данной цели были поставлены следующие задачи:

1. Провести независимую иерархическую кластеризацию надсемейства цитохромов Р450 и выявить структурную основу образующихся кластеров.

2. Создать иерархическую структурную классификацию надсемейства Р450 для определения степени структурного сходства каждого белка с прообразами соответствующих (под)семей и консенсусной последовательности всего надсемейства, являющейся прообразом последовательности —прародителя.

3. Исследовать иерархию надсемейства цитохромов Р450 на устойчивость.

Научная новизна и практическая значимость работы. В настоящей работе впервые дана структурная характеристика надсемейства цитохромов Р450, которое до сих пор имело только функциональное описание. Выявлены структурные причины образования стабильных кластеров — примеров сильной иерархии. С помощью иерархического подхода удалось установить общность структуры активного центра ферментов, составляющих стабильные кластеры. Полученные сведения, с использованием известных знаний о локализации остатков, отвечающих за связывание субстратов цитохромамн, позволят предсказать остатки с аналогичной функцией в остальных ферментах, принадлежащих одному кластеру и имеющих сходную структуру активного центра. Проведена иерархическая классификация белков надсемейства цитохромов Р450 с установлением структурного подобия последовательностей с консенсусами (под)семей гемопротеинов. С использованием метода фазовых портретов показано, что система надсемейства цитохромов Р450 стабилизируется поступлением новых последовательностей.

Апробация работы. Основные результаты работы были доложены на 3 конференции ШБМВ "Молекулярное узнавание" (Сингапур, 1995), 9 Международной конференции по биохимии, биофизике и молекулярной биологии цитохрома Р450 (Швейцария, Цюрих, 1995) и на Международной конференции

по молекулярной биологии (Австрия, Вена, 1995). Апробация диссертации состоялась на межлабораторном семинаре Института биомедицинской химии РАМН 12 марта 1996 года.

Публикации. По материалам диссертации опубликовано 6 работ.

Объем н структура диссертации. Диссертация изложена на страницах машинописного текста, включая 2 таблицы, 2 схемы и 11 рисунков, и состоит из следующих основных разделов: "Введение", "Обзор литературы", "Материалы и методы", "Результаты и обсуждение", "Выводы", "Приложение", "Благодарности", "Список литературы".

МАТЕРИАЛЫ И МЕТОДЫ

Последовательности. Белковые последовательности цитохромов Р450 были взяты из базы данных CPD (Cytochrome Р450 Database, Archakov et al., 1992), содержащей информацию о 54 семьях, среди которых 18 семей имеют одну подсемью, и 22 семьи представлены единственным белком. В работе использованы полные последовательности из 15 микросомальных (от CYP1 до CYP10, CYP13, CYP17, CYP19, CYP21, CYP24), 2 митохондриальных (CYP11, CYP27), 10 дрожжевых (CYP51, CYP52, CYP53, CYP55, CYP56, CYP57, CYP58, CYP59, CYP60, CYP61), 11 "растительных" (CYP71, CYP72, CYP73, CYP74, CYP75, CYP76, CYP77, CYP78, CYP79, CYP80, CYP83) и 16 "бактериальных" (от CYP101 до CYP114, CYP116, CYP117) семей.

MULTALIN-программа множественного выравнивания. На первом этапе необходимо провести независимый анализ изучаемой выборки. Из множества известных программ нами была выбрана система MULTALIN (Multiple Alignment, Carpet, 1988). Выбор данного программного обеспечения обусловлен рядом причин. Во —первых, множественное выравнивание довольно большого количества последовательностей проходит за разумное количество времени; во-вторых. работа с программой ведется в интерактивном режиме, что позволяет менять различные параметры (матрицу замен, штраф за пробел, образование новых групп аминокислот и их переобозначение) уже в процессе выравнивания; в —третьих, результатом выравнивания является не только выравненные последовательности, но и консенсус, использование которого предполагает предложенный здесь метод последа па тельного выравнивания; и, в —четвертых, позволяет получить результаты иерархической кластеризации в виде' "дерева"

выравниваемых последовательностей. В качестве входных файлов использовались последовательности Р450 в формате FASTA (первичная последовательность, имеющая единственное поле комментариев— начальная строка, начинающаяся с символа). Сначала все последовательности сравниваются попарно быстрым алгоритмом Lipman & Pearson (1985); результаты в виде матрицы парных счетов сохраняются в файле <filename.sco>. На основе парных сравнений проводится кластеризация последовательностей (файл <filename.clu>) и строится иерархическое "дерево" (файл <filename.gra>). Далее проводится множественное выравнивание на основе кластеризации, результаты которого сохраняются в файле <filename.mul>. После этого строится новая матрица счетов, на ее основе опять проводится новая иерархическая кластеризация и т.д. Если новая кластеризация отличается от предыдущей, итеративный процесс повторится снова до тех пор, пока последняя и предыдущая кластеризация не совпадут. В настоящей работе использовались файлы ".muí, ".seo и *.gra.

Матрица BLOSUM62. Независимая предварительная кластеризация белков надсемейства Р450 проводилась с матрицей BLOSUM62 (Henikoff, S. & Henikoff, J., 1992).

Матрицу BLOSUM62 авторы сопоставили с целым рядом других. Например, матрица DAYHOFF (Dayhoff, 1978) считается наиболее популярной и позволяющей, по мнению многих исследователей, получить оптимальное выравнивание. Однако она была построена на выборке белков, имеющих не менее 85% идентичности. Поскольку нас интересует установление родственных взаимосвязей в пределах надсемейства (так же как, впрочем, и исключение), в данном случае для цитохромов Р450, необходимо использовать матрицу с соответствующими требованиями. По крайней мере, матрица BLOSUM62 позволяет, в какой—то мере, это сделать. Henikoff, S. и Henikoff, J. (1992) провели сравнительный анализ нескольких матриц и показали, что выравнивание с ее использованием содержит наименьшее количество несовпадающих остатков для белков, имеющих невысокую степень родства, по сравнению с остальными матрицами.

Оценка множественных символов. Решение задачи выравнивания предполагает возможные замены на аналогичные по свойствам аминокислоты, т.н. гомологичные замены. В связи с этим матрица BLOSUM62 была добавлена символами, согласно Landers & Risler (1994), объединяющими некоторые аминокислоты в соответствии с их физико-химическими свойствами. Таким образом, было образовано пять новых групп, объединенных следующими

символами: # [,Ь,М,У; @ И,У; = А.З.Т; + И, К; О; — О, Е, N (обозначения групп исходят просто из наличия клавиатурных символов). Это значит, что, например, в случае выравнивания "одногрупных" аминокислот (хотя это может быть не причиной, а, скорее, следствием такого введения, что, в принципе, не важно) в соответствующей позиции консенсуса будет находиться соответствующий "множественный" символ. Но для этого необходимо определить веса замен этих символов друг с другом и между собой, поскольку предлагаемый метод использует консенсусы, полученные на разных этапах, как объект для выравнивания на последующих. А для этого необходимо заполнить соответствующие места в матрице замен, принадлежащие символам. Подсчет весов велся по формуле:

^ — вес замены символа I на Р^ — веса замен аминокислотных остатков из групп 1 и ]; N1, N2 — количество аминокислотных остатков в группах. Для определения весов замен только одного остатка на какой — либо символ, формула упростится и примет вид:

ЛМ — искомый вес замены;

Р1 — вес замены данного остатка на любой из остатков в сравниваемой группе;

N — количество остатков в группе.

Таким образом, "классическая" размерность матрицы после добавления новых символов увеличилась с 20x20 до 25x25.

Подбор штрафа за пробел. Данный параметр выбирался согласно критерию, в соответствии с которым величина штрафа считалась оптимальной, когда разница в идентичности между "случайными" и заведомо "родственными" последовательностями оказывалась максимальной. Таким образом была установлена величина, равная 10.

Использование консенсусных последовательностей. Консенсусная последовательность представляет собой необычную последовательность, содержащую буквы, кодирующие аминокислоты, "множественные" символы и

т N2

где

N

т — -^гг—, где

пустые позиции. Поскольку предложенный метод предполагает использование консенсусних последовательностей как объекта дальнейшего выравнивания, пустые позиции заполнялись символом; X для предупреждения сдвига, а также в предположении, что данная позиция равновероятно принадлежит любой аминокислоте.

Метод последовательного выравнивания и кодирование последователь-костей. Данный метод был опробован ранее (АгсЬакоу & Г)ед(уагепко, 1993) на меньшей выборке белков. Однако в нем отсутствовали система подбора параметров выравнивания и проверка стабильности полученных результатов. На первом иерархическом уровне проводится совместное множественное выравнивание последовательностей, принадлежащих одной подсемье. Для каждой подсемьи строится консенсусная последовательность.

На втором иерархическом уровне строятся консенсусы семей, для чего внутри каждой семьи проводится совместное множественное выравнивание полученных на предыдущем этапе консенсусов и отдельных представителей подсемей, поскольку некоторые подсемьи представлены единственным белком, и, следовательно, не имеют консенсуса. На этом и предыдущем этапах все пустые позиции заполнялись символом X.

На последнем этапе строится консенсусная последовательность всего надсемейства Р450 совместным выравниванием 32 консенсусов (под)семей (некоторые семьи были представлены одной подсемьей), и 22 отдельных представителя семей. Схема последовательного выравнивания представлена на Рис. 1:

Кодирование последовательностей осуществлялось в соответствии с принципом иерархической и структурной классификации — установление расстояний от каждого белка — представителя подсемьи — до консенсуса подсемьи, от консенсуса подсемьи и отдельных представителей подсемей до консенсуса семьи, и, наконец, от консенсусов семьи и единственных представителей семей до консенсуса всего надсемейства Р450. Подобное кодирование позволит определить степень структурного подобия каждого представителя надсемейства Р450 по отношению их общему предку, прообраз которого, по нашему мнению, в какой —то мере представлен консенсусом надсемьи Р450. Естественно, что количественно очень трудно оценить генетическое "расстояние" между белковыми последовательностями до их последовательности — прародителя; однако такому эволюционному "расстоянию" можно придать некую качественную оценку, определив расположение белков в пространстве друг относительно друга. Система трехступенчатого кодирования

Рис.1. Алгоритм иерархической кластеризации и кодирования (из: АгсЬакоу & Оед1уагепко, 1993)

позволит перевести трехмерные координаты, в котором располагается иерархическое дерево, в некую систему, "линеаризующую" это трехмерное пространство, где все исследуемые белки имеют своеобразный трехпозиционный "индекс", однозначно определяющий их местоположение в трехмерной системе, называемой "надсемейством цитохромов Р450". Итак, полученные на первом этапе консенсусные последовательности подсемей сравнивались попарно с каждым представителем соответствующей иодсемьи, а также между собой. В качестве критерия сходства была избрана величина счета, полученного при парном выравнивании. Количество таких сравнений равнялось N + 1, где N — количество последовательностей в подсемье плюс сравнение консенсуса самого на себя. Последовательность, набравшая максимальный счет, считалась "ближайшей" к "своему" консенсусу. В качестве матрицы сравнений была избрана диагональная матрица 0—1, обычно применяющаяся для парных сравнений, со штрафом за пробел, рапным 0, так как при парном сравнении последовательностей внутри (под)семей с соответствующим консенсусом порядок ранжирования ие нарушался при повышении штрафа за пробел. Как и матрица ВЮБиМ62, применяющаяся для множественного выравнивания,

матрица 0—1 была добавлена соответствующими "множественными" символами, и веса их замен посчитаны аналогично (см. выше). Однако, уже на этом этапе возникла проблема сравнения консенсусов между собой: если выравнивание аминокислотных и множественных символов не представляет каких—либо трудностей, то неизвестно, нужно ли выравнивать "пустые" позиции, и если да — то как тогда оценить соответствующие "замены". Поскольку матрица 0—1 отражает, в какой—то мере, вероятностный характер для соответствующих замен, то "пустой" позиции, обозначенной X, был придан такой же смысл. Все веса замен для X были одинаковы и равнялись 1/20, как отражение равной вероятности для любой аминокислоты занять данную позицию. Чтобы избежать дробных значений, все элементы матрицы были увеличены в 100 раз.

Таким образом, полученные парные счета позволили ранжировать последовательности по отношению к консенсусу подсемьи, после чего они получали свой трехпозиционный код XX.YY.ZZ, в котором заполнялись две последних позиции (22). "Ближайшая" к консенсусу подсемьи последовательность получала номер XX.YY.0l, наболее "удаленная" — XX.YY.kn, где кп — количество последовательностей в подсемьа.

На втором иерархическом этапе проводилась аналогичная процедура, но только ранжирование проводилось между консенсусами подсемей и единственными представителями семей по отношению к консенсусу семьи. Заполнение шло по вторым позициям (УУ) по такой же схеме.

На последнем этапе все полученные консенсусы (под)семей и последовательности, являющиеся единственными представителями своих семей, ранжировались по отношению с консенсусу всего надсемейства. Способом, описанным выше, заполнялись первые две позиции. Отметим, что консенсус надсемьи имел номер 00.00.00. Однако на данном этапе возникли проблемы с использованием штрафа за пробел, равный 0, связанные с отсутствием стабильного ранжирования при добавлении новых последовательностей, чего не наблюдалось на уровне подсемьи и семьи, где уровень идентичности довольно высок. Поскольку предложенная классификация рассчитана на пополнение последовательностей, необходимо устранить этот недостаток, корректно подобрав штраф за пробел. Это, пожалуй, единственный параметр, которым можно управлять на данном уровне "родства" белковых последовательностей, поскольку уровень идентичности между некоторыми представителями надсемейства не достигает и 20%, что составляет "достойную" конкуренцию за право называться "случайной" последовательностью, так как такое "сродство"

характеризует, вообще говоря, шум в системе, и чтобы последовательность была не случайной, ей необходимо превысить этот показатель.

Подбор штрафа за пробел при ранжировании на последней иерархическом уровне. 32 консенсуса (под)семей и 22 единственных представителя семей были ранжированы по отношению к консенсусу надсемьи с использованием различных штрафов за пробел. Всего было построено 15 таких ранжировок, величина штрафа варьировала от 0 до 14, с шагом 1. При штрафе, равном 15 и выше, наблюдались отрицательные счета при парных выравниваниях, что говорит о получении некорректных результатов для данного набора последовательностей. Итак, при каждом штрафе было проведено 54 парных сравнения консенсусов и представителей семейств по отношению к консенсусу над— семейства. Благодаря полученной статистике, была посчитана апостериорная вероятность для каждой семьи (консенсуса или единственного представителя) занять соответствующую позицию в соответствующей ранжировке, зависящей от штрафа за пробел, или, другими словами, определена первая координата в трехмерной системе координат иерархической классификации. Анализ полученных статистических данных показал, что максимальный процент совпадений для занятия семьями определенных позиций существует при использовании штрафа за пробел, равный 5. Таким образом, в дальнейшем первая координата определялась по результатам ранжирования с использованием полученного штрафа.

Проверка устойчивости системы (метод фазовых портретов). После получения стабильной картины ранжирования последовательностей, необходимо определить, насколько данный подход приемлем для классификации, какое "время жизни" у систем подобного рода. В случае, если вновь открытый белок, попадающий в систему, будет нарушать иерархию не только на уровне подсемьи, в которую он попадет, но и на уровне надсемьи, тогда вся система эудет проявлять стремление к неустойчивости, и, следовательно, нет никакий гарантий, что не придется вновь каждый раз переопределять параметры, от которых и зависела стабильность системы на меньшем количестве белков, что, естественно, является недопустимым. В принципе, существующее количество тоследователыюстей составляет вполне репрезентативную выборку, на которой /же можно строить предположения о стремлении системы к стабильности или ^устойчивости в случае ее пополнения. Следовательно, это необходимо {сследовать хотя бы потому, чтобы спрогнозировать колебания в системе (а данную классификацию можно назвать системой, как любую другую,

"живущую" или построенную по некоторым правилам). Для исследования поведения модели наиболее приемлемым выбором будет применение качественной теории дифференциальных уравнений с использованием метода фазовых портретов (Романовский и соавт., 1975).

В общем случае, система второго порядка имеет вид:

^=Р(х,у)-, ^ = (1.1)

си ш

Р и О — непрерывные функции своих переменных. Для качественного исследования удобно рассматривать х и у как координаты изображающей точки на фазовой плоскости. Решению уравнений (1.1) х=х(1), у=у(Ч соответствует движение изображающей точки по фазовой траектории. Совокупность фазовых траекторий на плоскости называется фазовым портретом системы.

Для построения фазового портрета находят семейство интегральных кривых уравнения

сЬс Р(х, у)

полученного из (1.1) исключением времени I. По теореме1, через каждую точку фазовой плоскости может проходить только одна интегральная кривая, наклон которой в этой точке определяется уравнением (1.2). Исключение составляют особые точки, в которых одновременно

Р(х,у)=0, 0(х,у1=0. (1.3)

Отмстим, что эти особые точки соответствуют положениям равновесия системы (1.1) или т.н. стационарным состояниям. Если уравнение (1.2) имеет аналитическое решение, найти фазовые траектории не представляет труда. В противном случае построение фазового портрета проводят с помощью изоклин — линий, которые пересекаются интегральными кривыми под одним и тем же углом; их уравнения йу/с>х=соп£1. Особый интерес представляют главные изоклины — горизонтальных и вертикальных касательных, имеющих уравнения 0(х,у)—0 и Р(х,у)=0, соответственно. На их пересечении и располагаются особые точки.

Для исследования устойчивости особых точек необходимо рассмотреть линеаризованную систему дифференциальных уравнений, описывающих движение вблизи положения равновесия и решить ее систему в частных производных, с учетом координат полученных стационарных значений.

1 Теорема Кошгт о существовании и единственности решения дифференциалы го го уравнения.

Вид фазового портрета будет зависеть от знаков корней уравнения, полученного после "линеаризации" системы дифференциальных уравнений.

Остановимся на описании параметров модели нашей системы. Она состоит из последовательностей, формирующих семьи и подсемьи, а также отдельных представителей, не вошедших ни в одну семью. В терминах нашей классификации, последовательности, входящие в (под)семьи, имеют консенсус. Здесь и далее будем использовать термины "консенсус" и "последовательность" с точки зрения наличия той или иной семьи (или подсемьи, в данном случае это не важно), так как она имеет консенсус, или отсутствия таковой, тогда это будет "одиночная" последовательность. Смысл такого разделения заключается в следующем. Дело в том, что последовательности и консенсусы "живут" по разным законам. Опишем поведение каждого их параметров.

Пусть х и у — начальное число "одиночных" последовательностей и консенсусов в системе, соответственно. На колебания численности последовательностей (т.е. количества семей, не имеющих консенсуса) оказывают влияние следующие факторы:

— вероятность открытия новой последовательности и поступления ее в систему;

Ь;ху — вероятность объединения в (под) семью с уже "существующей одиночной" последовательностью, что, естественно, повлечет образование консенсуса;

С;Х2 — вероятность образование новой семьи, единственным представителем которой является поступившая последовательность.

Что касается консенсусов, то колебание их количества зависит только от ' параметра Ь^ху, характеризующего вероятность образования нового консенсуса при поступлении новой последовательности.

Ещё одно событие — "слияние" новой последовательности с уже "существующей" семьей — не увеличивает и не уменьшает х или у, следовательно, не влияет на их колебания, поэтому мы не будем его рассматривать.

Таким образом, получаем систему из двух уравнений:

Лх , о .

— =а,х-Ь,ху+с,х2э Р(х,у);

а!

=Ь2ху = О(х.у).

Исключим время, разделив второе уравнение на первое:

¿У ^ 1У0> = <Ну ¿х о,х - Ь,ху + с.х2 «, - Ьху + с,х

Найдем изоклины горизонтальных касательных:

0(х,у)=Ь2у-=0, у=0.

Изоклины вертикальных касательных:

Р(х,у)= а,-Ь1у+с,х =0; +

А

Нетрудно убедиться, что эта прямая пересекает ось абсцисс в точке с координатами (——;0). Таким образом, это координаты стационарного

с,

состояния. Определим характер фазовых линий на плоскости. Для этого необходимо линеаризовать систему. Найдем частные производные в точке с полученными координатами:

и о ЛР и

- = а1-Ь1у + 2с1х-, ^ =

^ = V; ^ = V.

(¡X (1у

Подставляем координаты стационарного состояния: (1Р АР

л = "г; ф

1"1

40. = 0;

(1х ¿у С|

Раскрываем детерминант:

(1е1=(-ах-1){-^--1) = 0; 'Л = -а1; г2= - (Ь2а,)/с,;

с.

Поскольку Э|, Ь2 и С| — числа положительные, оба корня уравнения действительны и меньше нуля. Это означает, что фазовые линии имеют характер устойчивого узла.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

филогенетическое исследование в надсемействе цитохромов Р450. Цитохром Р450 является белком, "удобным" для филогенетических исследований. Во-первых, построение филогенетического дерева основано на предположении, что рассматриваемый признак передается от предка к потомку и что другие пути

отсутствуют. Во —вторых, имеется одинаковая роль цитохрома Р450 во всех организмах, и ота широкая распространенность является также положительным признаком. Все это способствовало проведению тщательного исследования представителей данного надсемейства. Иерархическое "дерево", полученное в результате совместного выравнивания всех представителей надсемейства Р450, представлено на Рис.2. Оно имеет две большие ветви, характеризующие дивергенцию на эукариоты (Э —класс) и прокариоты (П —класс). Кластеризация белков напоминает в общих чертах ранее опубликованные (Gotoh & Fujji — Kuriyama, 1989; Degtyarenko & Aichakov, 1993). Так, довольно устойчивый кластер образуют представители "митохондриальных" семейств (CYP11, CYP27) с семьями микросомальных цитохромов (CYPIO, CYP24). Представители "дрожжевых" семейств CYP53, CYP57 и CYP58 также формируют один кластер. По "сложившейся негласной традиции", всегда можно обнаружить кластер, состоявший из представителей дрожжей (CYP52), растений (CYP74) и микросомалыюго семейства (CYP4). Кроме того, присутствует довольно большой и стабильный кластер, содержащий цитохромы растительного происхождения (CYP71, CYP73, CYP75, CYP76, CYP77, CYP78, CYP79, CYP80, CYP83). Два четко обособленных кластера сформированы только из микросомальных цитохромов (CYP3, CYP5, CYP6, CYP9, CYP13 и CYP1, CYP2, CYP17, CYP21). Вместе с кластером (CYPIO, CYP11, CYP24, CYP27) они представляют собой примеры сильной иерархии в надсемействе Р450, проявляющихся в постоянстве их образования. Попадание бактериального цитохрома CYP102 из Bacillus megaterium в Э —класс — также проявление сильной иерархии, хотя, на первый взгляд, такое его расположение не совсем обычно. Совершенно очевидно, что принадлежность белков к тому или иному про— или эукариотическому организму не является основной причиной, послужившей для разделения на две большие ветви. Что же общего у микросомальных цитохромов и CYP102, кроме необходимой идентичности аминокислотных последовательностей, способствующей их объединению? Согласно Hasemann et al. (1995), цитохромы Р450 могут иметь не только сходство их аминокислотных последовательностей, но и идентичность редокс — партнеров. Анализируя принадлежность белков надсемейства цитохромов Р450 к различным монооксигеназным системам, можно отметить, что все микросомальные цитохромы и Р450вм_3 принимают участие в образовании одинаковых донорно —акцепторных пар, в которых электроны поступают непосредственно от FAD/FMN — содержащего партнера.

СУР 10

СУР 27

СУР24

СУР11

СУР58

СУР57

СУР53

СУР9

СУР6

СУРЗ

СУР5

СУР13

СУР52

СУР4

СУР72

СУР 19

СУР 102

СУР56

СУР78

СУР79

СУР80

СУР 83

СУР71

СУР75

СУР76

СУР77

СУР73

СУР17

СУР1

СУР21

СУР2

СУР61

СУР74

СУР51

СУРЗ

СУР7

СУР101

СУР 100

СУР111

СУР116

СУР 106

СУР 109

СУРЮЗ

СУР114

СУР55 "

СУР 112 -

СУР 105

СУР 107

СУР 104

СУР110

СУР60

СУР59

СУР117

Ь

ь-

йп

>1

Рп

п

Рис. 2 Иерархическое дерево надсемейства цнтохромов Р450. (Э —эукариотьг. П —прокариоты. (Под)семьи обозначены СУР].

Просто в случае микросомальных цитохромов — это NADPH — зависимая цитохром Р450 редуктаза, а в случае Р450ВМ-з — это FAD/FMN —содержащий домен, первичная структура которого гомологична NADPH — зависимой цитохром Р450 редуктазе. Очевидно, с этих же позиций объясняется объединение в один класс остальных бактериальных цитохромов, получающих электроны согласно схеме NADH — > железосерный белок (путидаредоксин) — > цитохром Р450. Это дает основание сделать предположение о наличии общего "пула" аминокислот, консервативных у всей группы последовательностей, имеющих идентичных белков—партнеров.

Непростая ситуация с некоторыми семьями дрожжевых цитохромов. Например, CYP55 из Fisarium oxysporum с "завидным постоянством" всегда обнаруживается в П —классе. Туда же "попали" и дрожжевые последовательности цитохромов Р450 CYP59 и CYP60. Подобная тенденция дрожжевых цитохромов объединиться с бактериальными совсем не говорит о существовании большего родства между ними; вероятнее всего, это свидетельствует об их переходном положении и "нетривиальное™" эволюционного пути по сравнению с типичными микросомальными цитохромами. В данном случае, вероятно, нельзя объяснить такое объединение с позиций идентичности их белков — партнеров, поскольку известно, что они разные. Дрожжевые цитохромы объединяются в общие кластеры с белками из различных представителей. CYP61 из Saccharomyces cerevisiae объединилась с "растительными" последовательностями цитохромов семейства CYP74, а представители семьи CYP51 формируют общий кластер с микросомальными семьями CYP7 и CYP8. Более того, вновь открытая последовательность CYP60 из Aspergillus parasiticus объединилась с бактериальным CYP110 из Anabaena species, до того всегда представлявшей отдельную ветвь.

В отличие от эукарнотических цитохромов, бактериальные не обнаруживают хоть сколь —нибудь постоянных кластеров, за исключением того, что они все просто формируют большую П —ветвь.

Можно заключить, что общая картина кластеризации белков надсемейства свидетельствует о наличии сильной иерархии в надсемействе, проявляющейся в формировании указанных пыше стабильных кластеров, хотя и не имеющих "априорных" шансов их сформировать. Довольно четкая, в большинстве своем, дивергенция на про— и эукариоты сопровождается "внедрением" в оба эти большие класса представителей дрожжевых цитохромов, что говорит о существовании некоего общего предка — последовательности, черты которого

можно обнаружить во всех изоформах цитохрома Р450, представляющего собой прекрасный пример белковой специализации. Не вызывает сомнения тот факт, что наличие всего набора цитохромных изоформ, который мы имеем сегодня (а их количество увеличивается с каждым годом со скоростью, аналогичной возрастанию экспоненты), бесспорно говорит о неслучайном его возникновении. Есть все основания заключить, что, несмотря на довольно большое различие в первичных структурах, имеется тенденция, направленная на сохранение некой предпочтительной структуры (имеется в виду сохранение консервативных структурно —функциональных доменов в сочетании с трехмерной структурой), благодаря которой цитохромы Р450, наделенные общей функцией, относятся к одному надсемейству. Поэтому, очевидно, эволюция была направлена на сохранение именно функции, и понятие надсемейства, в таком случае, в значительной степени функциональное.

Чем объясняется наличие такого многообразия цитохромов Р450? Что заставляет последовательности объединяться в тесно связанные структуры? Наличие какой "силы" способствует поддержанию сильной иерархии в системе? Очевидно, что должны существовать какие—то единые принципы, обуславливающие особенности организации иерархии в системе надсемейства цитохромов Р450, как, впрочем, и любого другого надсемейства. Анализируя четко обособленные "ветви" дендрограммы, можно сделать ряд предположений о некоторых "нетипичных" объединениях цитохромных семей в один кластер. В сущности, функционирование цитохром Р450—содержащих систем обусловлено необходимостью организма в защите от экзогенных веществ. Таким образом, одним из ключевых моментов "движущей силы" эволюции генов Р450 является, очевидно, многообразие субстратов, с которым приходится иметь дело про— или эукариотическому организму. Именно с этих позиций, вероятно, и объясняются понятия о "широкой" и "узкой" субстратной специфичности гемопротеинов. С одной стороны, чем больше спектр метаболизируемых веществ у какой —либо группы ферментов, тем универсальней система защиты; с другой стороны, чем уже субстратная специфичность, тем эта система совершеннее. В этой связи не случайно образование обособленных "ветвей" конкретного филогенетического дерева, и сохранение сильной иерархии при анализе всех предыдущих дендрограмм.

Итак, имеет место образование стабильных кластеров на иерархической дендрограммс. Какие же структурные принципы лежат в основе этого? Поскольку объединение последовательностей происходит по методу

"ближайшего соседа", совершенно очевидно, что количество совпадающих аминокислот между сравниваемыми консенсусами в пределах одного кластера довольно велико, раз такое объединение произошло.

Анализ множественного выравнивания консенсусных последовательностей, попавших в один кластер и составляющих сильную иерархию (кластер 1 (CYP10, CYP11, CYP24, CYP27); кластер 2 (CYP3, CYP5, CYP6, CYP9, CYP13,); кластер 3 (CYP1, CYP2, CYP17, CYP21), показал, что в каждом их них наибольшее количество совпадающих остатков принадлежит участкам последовательностей, расположенных недалеко от гем —связывающего домена (Рис. 3). В связи с этим были проанализированы вторичные структуры исследуемых участков. Согласно ряду публикаций, посвященных методам анализа вторичных структур микросомальных цитохромов Р450 (см., например, Edvards et al., 1989; Zvelebil et al., 1991, Hasemann et al., 1995), в молекулах микросомальных цитохромов Р450 имеет место не только одинаковое чередование регулярных структур, но и совпадение длин их а—спиралей. В частности, А, В, F, J, К —спирали имеют длину 8—13 остатков, С, D, Е, L—спирали — 20—25 остатков, и самая длинная I —спираль — до 35 аминокислотных остатков. Было установлено, что интересующие нас районы принадлежат Г, J и К —спиралям. На их долю и приходится максимальное количество совпадений аминокислот, но с некоторыми особенностями, характерными для каждого кластера. Совпадающие аминокислоты в Кластере I характеризуются расположением в большей части I —спирали, полным вхождением в J —спираль, а также образующим большой блок, в начале которого имеется К —спираль. Кластер 2 имеет общий блок, составленный из остатков, составляющих целиком I—, J— и К —спирали; между двумя последними имеется также высокогомологичнын участок. Ситуация в Кластере 3 наиболее проста. Високогомологичные аминокислотные остатки составляют большой блок и принадлежат I— и J —спиралям. Кроме того, все три кластера характеризуются наличием различных мотивов гем — связывающего домена, являющегося высококонсервативным в каждом кластере. Furuya et al., (1989), анализируя тот же самый участок и определяя роль аминокислотных остатков путем точечного мутагенеза, установили, что аминокислотные остатки, расположенные на дистальной поверхности Г —спирали, играют важную роль в субстратной специфичности и должны оказывать определенное влияние на активацию молекулярного кислорода в процессе катализа. Все эти предположения хорошо согласуются с основной идеей, высказанной в ряде работ (Goloh & Fujii — Kuriyama, 1909; Nelson & Strobel, 1988), что I —спираль имеет

Рис.3. Анализ вторичных структур участков последовательностей, имеющих максимальное совпадение в каждом кластере. Совпадающие блоки отмечены белыми прямоугольниками, ос-спирали—заштрихованы, гем —связывающий домен представлен жирным шрифтом.

Кластер 1. fCYPlO. CYPil, CYP24, CYP27)

J— helix

К-helix

FGxGxRxC # G L-helix

Кластер 2 (CYP3, CYP5, CYP6. CYP9. СУР13)

I-г helix

J-helix

К — helix

FGxGPRNC#G L-helix

Кластер 3 fCYPl. CYP2, CYP17. CYP21)

I—helix J«-helix......

К —lUillX

FxGxxRxC#G

L'-helix ""

одинаковую топологию во всех цитохромах Р450. Анализируя известные трехмерные структуры Р4501егр, Р450вм_3 и Р450сат, Нахетапп и соавторы (1995) пришли к выводу, что все они имеют одинаковую топологию регулярных вторичных структур, несмотря на то, что характеризуются низкой идентичностью первичных последовательностей и, следовательно, принадлежат к разным семьям. Основные отличия, являющиеся специфичными для каждого кластера, сосредоточены на I— и Л —спиралях. СокЛ (1992), используя знания о расположении вторичных структур и функционально —значимых аминокислотных остатков у Р450сат и аппроксимируя эти данные на ряд микросомальных цитохромов Р450, показал, что как Р450сат, так и микросомальные цитохромы имеют сходное распределение аминокислотных остатков, отвечающих за субстратного связывание, часть из которых принадлежит I —спирали. Те же доказательства были получены НаБешапп е1 а1. (1995). Кроме того, эти авторы провели доказательный анализ, подтверждающий не только наличие общего

фолда у исследуемых белков с известной трехмерной структурой, но и остальных цитохромов Р450. Эти же авторы установили, что все основные различия в упаковке молекулы белка выражаются, в основном, за счет I —спирали, являющейся дистальной поверхностью активного центра цитохромов Р450. Суммируя полученные сведения, можно заключить, что общие признаки, имеющиеся у всех цитохромов Р450, попавших в один стабильный кластер, характеризуются строго специфичными структурными особенностями их активного центра, дистальной поверхностью которого является I —спираль с входящими туда высокогомологичными аминокислотами, а проксимальной — специфический гем —связывающий домен.

Иерархическая структурная классификация. Таким образом, описание филогенетического дерева с точки зрения имеющихся у него "ветвей" — это исследование связей и некоторых относительных расстояний между семьями, и то в пределах только одного "ракурса", являющегося результатом расположения белков в неком гипотетическом трехмерном пространстве. Однако не менее значительным нам представляется исследование степени структурного сходства между каждым белком и прообразами для его подсемей и семей в надсемействе. Каждый белок, в принципе, имеет два или три образа —консенсуса, в построении которых он участвовал. Какова степень структурной связи между ними? Для этого необходимо "линеаризовать" трехмерное дерево и определить для каждого белка, в зависимости от структурного подобия, его место в надсемействе. Классификация с применением кодирования последовательностей поможет понять принцип структурного "портрета" надсемейства, в котором каждый белок имеет свой трехступенчатый "индекс", отражающий структурное подобие по отношению к консенсусам своей подсемьн, семьи и всего надсемейства Р450. Пример классификации надсемейства цитохромов Р450 приведен для семейства СУР52 (Табл.1).

Линеаризация трехмерного пространства, в котором лежит филогенетическое дерево, позволила определить структурные взаимосвязи между белками и определить расстояние от каждого белка до консенсуса надсемьи, сохранившего общие черты последовательности — предка. Кроме того, в соответствии с предложенной классификацией, каждый белок получил новое систематическое имя, отражающие принцип трехступенчатой иерархии в надсемействе.

Таким образом, каждая белковая последовательность Р450 имеет свое однозначное расположение в надсемействе и свое систематическое имя, отражающее степень структурного подобия между консенсусами соответствующих

Таблица I. Предложенные коды к систематические имена для белков

надсемейства цитохромов Р450. Приведен пример для семейств а СУР52.

Консенсусы (под)семен или единственные представители семей против консенсуса надссмьи Р450

СУР450* 11921

СУР71 ♦ 9073

СУР4« 9006

СУР6« 8880

СУР24 8859

СУР 1 ЗА* 8555

СУРЗА» 8323 СУР52Ф

Консенсусы подсемей или единственные

предста внтелк подсемей против консенсусов семьи

35580' СУР52А* 28130

СМА5201 22191 СУР52С« 20547

СТК52В1 20299 САР52Е1 19155

РЗЭЮЗ 4471

СУР112» 4452

АЫАПО 4437

РРШ01 4361

АТУ 104 4228

Р1Ы111 4032

ВЛА117 3946

£N159 3209

Последовательности Р450 против соответствующих консенсусов подсемей

СМА52Ах

СМА52Ау

СМА52АЗ

СМА52А11

СМА52А5

СТК52А2

СМА52А9

СМА52А10

СТИ52А1

СТП52А6

СТЯ52А8

СМА52А4

СТК52А7

СТЯ52С1 СМА52С2

45615* 33025 32746 32285 32268 31935 31915 31837 31747 31668 31382 31377 31247 29945

34390' 29379 29354

Предло — жецные коды

070000 070100

070101

070102

070103

070104

070105

070106

070107

070108

070109

070110

070111

070112

070113 070201

070301

070301

070302 070401 070501

(под)семей. Как нетрудно заметить, присвоение соответствующих координат для каждого белка довольно сильно зависит от априорного количества последовательностей, уже имеющихся в классификации. По крайней мере, если для вновь открытой последовательности уже существует набор вьгсокогомологичных последовательностей, объединившихся в (под)ссмыо, то нет никаких гарантий, что новая последовательность не будет больше "похожа" на прообраз своей

(под)семьи, чем, например, все остальные, что, в принципе, вполне допустимо, особенно если речь идет о постоянном пополнении классификации. Естественно, что это может повлечь изменение третьей координаты для всего (под)семейства, или, по крайней мере, того списка последовательностей, которые окажутся дальше от консенсуса, чем вновь поступившая. В данном случае имеет место привнесение возмущения в систему, выражающееся в поступлении новых последовательностей. Насколько это "опасно" для существования такой системы? Естественно, что в таком случае необходмио исследовать данную систему на предмет сохранения ее стабильности в зависимости от поведения параметров, ее описывающих.

Фазовый портрет системы. Использование метода фазовых портретов позволяет получить качественное описание динамического состояния системы и определить принципы ее саморегуляции, поскольку без такого механизма невозможно существование единой системной организации. На Рис. 4 представлен фазовый портрет вида "устойчивый узел", свидетельствующий о том, что данная система, а именно —сохранение иерархического принципа организации в надсемействе Р450— стабилизируется, как ни странно, привнесением любого возмущения, выражающегося в поступлении новой последовательности. Получается парадоксальный замкнутый круг чтобы "обрести" стабильность, необходимо отклониться от стационарного состояния, чтобы снова туда вернуться! Таким образом, стремление эволюционного процесса сводится, в конечном счете, к увеличению информации и, следовательно, уменьшению системной энтропии. Вот почему отклонение от стационарного состояния (приход нового белка), увеличение информации (наличие вариабельных участков в последовательности, несущих, в конечном итоге, смысл специализации белка, отнюдь не являющихся "шумом") и уменьшение энтропии (сохранение важных структурно — функциональных доменов в эволюционном процессе) являются логичными звеньями одной цепи. Кроме того, "устойчивый узел" характеризует правомерность применения данного иерархического подхода, используемого для описания структурного портрета надсемейства.

Рис. 4. Фазовый портрет системы вида "устойчивый узел". Направления изоклин показаны стрелками.

Таким образом, данное надсемейство является открытой самоподаер — живающей системой, стремящейся к сохранению самоорганизации и устойчивости, выражающееся в поступлении новых белков, структурным описанием которой является иерархическая структурная классификация надсемейства цитохромов Р450.

выводы.

1. В результате независимой иерархической кластеризации надсемейства цитохромов Р450 получены стабильные кластеры белковых семейств, представляющих примеры сильной иерархии.

2. Структурной основой сильной иерархии в надсемействе Р450 является консервативность дистальной и проксимальной поверхностей активного центра цитохромов Р450 в соответствующих кластерах.

3. Предложено структурное описание надсемейства, иерархическая структурная классификация, описывающая степень структурного подобия белков по отношению к консенсусам соответствующих (под)семейств и всего надсемейства цитохромов Р450, сохраняющего общие черты последовательности — предшественника.

4. Создан фазовый портрет системы вида "устойчивый узел", означающий, что фактором её самостабилизации является увеличение количества последовательностей в системе.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Lyashenko А.А., Archakov A.I. (1995) Structural clusterization of the CYP450-superfamily based on stepwise alignment and coding. In: 9th International Conference on Cytochrome P450: Biochemistry, Biophisics and Molecular Biology, Zurich, p. 175.

2. Uvarov V.Yu., Lyashenko A.A. (1995) Identification of the pterin — binding domain in the nitric oxide synthase's sequence. In Third IUBMB Conference "Molecular recognition", Singapore, p. 103.

3. Archakov A.I., Lyashenko A.A. (1995) A hierarchical approach to structural clusterization of the CYP450 — superfamily based on consensus alignment. In: Proceedings of the International Conference on Molecular Biology (A.J. Kungl, P.J. Andrwe, H. Schreiber, eds), Vienna, p.254,

4. Uvarov V.Yu., Lyashenko A.A (1995) Identification of the pterin—binding domain in the nitric oxide synthase's sequence. Biochem. Biophys. Res. Comm. 206, 736 — 741.

5. Lyashenko A.A., Archakov AI. (1995) A structural clusterization of the CYP450 — superfamily based on stepwise alignment and coding. Karadeniz J Med Sci, 8, 215.

6. Uvarov V.Yu., Lyashenko A.A., Zimin A.G. (1996) Comparative analysis of the secondary structural motifs of P450BM_3 and the regions located upstream of the calmodulin —binding domain in the nitric oxide synthases. Biochem Mol Biol Int. 38, 555-560.