Бесплатный автореферат и диссертация по биологии на тему
Общее и частное в структурной организации белков надсемейства цитохромов Р450
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Общее и частное в структурной организации белков надсемейства цитохромов Р450"

На правах рукописи

МИРОШНИЧЕНКО Юлиана Викторовна

ОБЩЕЕ И ЧАСТНОЕ В СТРУКТУРНОЙ ОРГАНИЗАЦИИ БЕЛКОВ НАДСЕМЕЙСТВА ЦИТОХРОМОВ Р450

03.00.28 - биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Москва 2006

Работа выполнена в Государственном учреждении Научно-исследовательском институте биомедицинской химии имени В.Н. Ореховича Российской академии медицинских наук

кандидат биологических наук Лисица Андрей Валерьевич

доктор биологических наук, профессор Короткое Евгений Вадимович

доктор биологических наук, профессор Иванов Алексей Сергеевич

Государственное учреждение Научно-исследовательский вычислительный центр Московского университета имени М.В. Ломоносова

Защита состоится «19» октября 2006 года в 11:00 часов на заседании Диссертационного совета Д 001.010.01 при ГУ НИИ биомедицинской химии им. В.Н. Ореховича РАМН по адресу: 119992, Москва, ул. Погодинская, 10.

С диссертацией можно ознакомиться в библиотеке ГУ НИИ биомедицинской химии • имени В.Н. Ореховича РАМН по адресу: 119992, Москва, ул. Погодинская, 10.

Автореферат разослан «.18» сентября 2006 года.

Ученый секретарь Диссертационного совета кандидат биологических наук

Научный руководитель:

Офипиап^ные оппоненты:

ТЧЛУДИМ тоганиэапия:

Былинкина В.С.

1. Общая характеристика работы

1.1. Актуальность проблемы

Надсемейство цитохромов Р450 представляет собой актуальный объект для исследования вычислительными методами. С практической точки зрения, интерес к изучению цитохромов Р450 обусловлен ведущей ролью ферментов этой группы е метаболизме лекарственных препаратов и ксенобиотиков. Более 60% существующих ныне лекарств окисляются с участием цитохромов Р450.

Монооксигеназная реакция, катализируемая цитохромами Р450, заключается во внедрении в липофильную молекулу субстрата атома кислорода (1-й этап биотрансформации). В результате монооксигенирования растворимость окисленного вещества повышается и, после конъюгации, вещество выводится из организма. Таким образом, следует отметить, что цитохромы Р450 играют значимую роль в обеспечении постоянства внутренней среды организма. Понимание гомеостатической роли цитохромов Р450 может быть расширено за счет включения функции регулирования уровня гормонов: гемовые монооксигеназы надпочечников, простаты, щитовидной железы, эпителия ЖКТ участвуют как в синтезе, так и деградации гормонов.

Цитохромы Р450 представляют собой потенциальные мишени для действия лекарственных препаратов. На основе ингибиторов цитохромов Р450 создано целое поколение противогрибковых препаратов. Ведутся исследования в области компьютерного конструирования ингибиторов форм цитохромов Р450 семейства СУР1Л, чья активность сопряжена с развитием онкологических заболеваний, в частности, рака легких.

Уникальность реакции монооксигенирования, катализируемой цитохромами Р450, обуславливает своеобразие молекулярно-эволюционных процессов в надсемействе. В настоящее время известно более 3 тыс. форм цитохромов Р450, эти белки выявлены в геномах животных, растений, грибов. В геноме человека насчитывается 62 гена, кодирующих цитохромы Р450, в геноме растений генов цитохромов Р450 - более 200. Если функции более 70% цитохромов Р450 человека известны, то для растений экспериментальной информации значительно меньше: изучена каталитическая функция менее чем для 5% растительных форм фермента.

Многообразие форм цитохромов Р450, по мнению исследователей, является естественным депозитарием «заготовок» для использования в биотехнологии. Известны случаи, когда цитохромы Р450 принимают участие в катализе реакций биосинтеза

противоопухолевых препаратов. Экстракты цитохромов Р450 (микросомальные фракции тканей растений и животных) используются в качестве биореакторов для получения новых химических веществ. Интенсивно ведутся работы в области создания химерных форм цитохромов Р450 с программируемой каталитической активностью.

Функциональное разнообразие надсемейства цитохромов Р450 сочетается с существенными различиями в первичных структурах этих белков. Идентичность последовательностей аминокислотных остатков, входящих в надсемейство, в среднем составляет 26%. В то же время, все известные в настоящее время пространственные структуры цитохромов Р450 характеризуются единообразным фолдом.

Начиная с 1989 года поддерживается систематическая номенклатура надсемейства цитохромов Р450. В семейство выделяются белки, гомологичные на 40%; группы белков, гомологичные более чем на 46% объединяются в подсемейство. Наряду с формальными признаками сходства последовательностей, при создании номенклатуры авторы использовали дополнительную информацию о сходстве строения генов и об особенностях функциональной активности.

По-видимому, одним из основных недостатков существующей классификации следует считать ее искусственность. Пользуясь традиционной систематикой невозможно сделать выводы ни в отношении эволюционного, ни в отношении функционального сходства ферментов, входящих в семейства и подсемейства. Формально указанный недостаток выливается в списки исключений, указывающих на отнесение к классификационной группе бежа, который в рамках определенного функционального контекста должен принадлежать другому подразделу классификации.

Неоднократно предпринимались попытки пересмотреть принципы классификации цитохромов Р450. Предлагаемые решения основывались на применении методов кластерного анализа и множественного выравнивания последовательностей. В частности, основанный на иерархическом выравнивании подход инвентаризации надсемейства позволил получить консенсусную структуру цитохромов Р450, объясняющую особенности строения белков надсемейства. При этом использовались методики, анализирующие первичную структуру в целом, без дифференцированного анализа составляющих её элементов. С другой стороны, уже в 1992 году было показано, что, несмотря на общее структурное разнообразие, в строении цитохромов Р450 можно выделить локальные участки, несущие особую функциональную нагрузку. Это наблюдение до сих пор не потеряло своей актуальности: предложенное в 1992 г. понятие участков узнавания субстрата используется во многих работах, посвященных изучению структуры и функции цитохромов Р450. В тоже время, обобщенная математическая

модель классификации надсемейства с учетом локальных структурно-функциональных элементов отсутствует, несмотря на то, что были показаны частные случаи успешного применения алгоритмов поиска мотивов для анализа надсемейства цитохромов Р450.

Таким образом, актуальной является задача совершенствования алгоритмической методики выявления структурно-функциональных элементов (мотивов) в надсемействе цитохромов Р450. Для решения этой задачи привлекается концепция наличия элементов общего и частного в структурах белков надсемейства. В основу концепции легли положения «островной гипотезы», рассматривающей термодинамические ограничения белкового фолдинга.

«Островная» гипотеза строения белков основывается на предпосылке о незначительной доле термодинамически выгодных конформаций белка по отношению к общему количеству гипотетических последовательностей, которые можно получить из 20-ти аминокислотных остатков. Следствием этой предпосылки является неоднородность участков первичной структуры с точки зрения их вклада в обеспечение пространственной конформации белка.

Целью работы являлась разработка подхода для выявления в аминокислотных последовательностях белков надсемейства цитохромов Р450 формальных элементов, определяющих структурную общность и функциональную специфичность различных форм этого фермента. В рамках достижения указанной цели решались следующие задачи:

1. Предложить алгоритмический метод выявления структурно-функциональных мотивов в группе белков (цитохромов Р450) и исследовать его свойства.

2. Выявить мотивы структурной общности для всего надсемейства белков.

3. Выявить мотивы частного в отдельной группе функционально родственных белков.

4. Разработать методику классификации цитохромов Р450 с учетом структурно-функциональных мотивов и сравнить результаты с традиционной номенклатурой.

1.2. Научная новизна и практическая значимость

В работе впервые рассматриваются принципы формализации подходов к классификации надсемейства цитохромов Р450. Предложена алгоритмическая методика для оптимизации результатов кластерного анализа на основе структурно-функциональных мотивов, выделяемых в первичной структуре кластеризуемых белков. Показано, что

выявляемые в группах белков консервативные элементы соответствуют участкам белка, имеющим значение для обеспечения общности структуры фодца и для реализации специфичной ферментативной активности.

Полученные результаты могут быть использованы для прогнозирования функций новых белков надсемейства цитохромов Р450. В практическом плане, созданная методология может быть применена для решения актуальных задач биотехнологии: синтез новых химических соединений и конструирование ферментов-монооксигеназ с заданной функцией.

13. Апробация работы

Основные положения диссертационной работы докладывались и обсуждались в ходе следующих конференций:

- Российский Национальный Конгресс «Человек и лекарство» (Москва, 2003);

- 13-я Интернациональная конференция по цитохромам Р450 (Прага, 2003);

- 2005 г. «Системная биология и биоинженерия» (Звенигород).

1.4. Публикации

Материалы диссертационной работы отражены в 5 публикациях, из них: 3 в общероссийских рецензируемых изданиях, 1 публикация в сборнике трудов международной научной конференции, 1 тезисы доклада.

1.5. Объем и структура диссертации

Диссертация изложена на 126 страницах машинописного текста, включая 15 таблиц, 27 рисунков. Состоит из глав: «Введение», «Обзор литературы», «Материалы и методы», «Результаты и обсуждение», «Выводы», «Список литературы».

1.6. Основные положения, выносимые на защиту

1. Предложенный алгоритмический метод, основанный на применении статистики Шермана к результатам множественного выравнивания, позволяет выявлять в наборах последовательностей цитохромов Р450 локальные консервативные участки (мотивы).

2. Выявляемые участки локального сходства отвечают элементам структуры цитохромов Р450, обеспечивающим его общую пространственную организацию (мотивы общности) и/или специфическую функциональную активность (мотивы частного).

3. Учет структурно-функциональных мотивов позволяет корректировать результаты кластерного анализа, что повышает уровень соответствия состава формальных групп (кластеров) с общепринятыми номенклатурными подразделами - семействами.

2. Материалы и методы 2.1. Выборка

С использованием базы данных по цитохромам Р450 была сформирована выборка, в которую вошли представители различных семейств цитохромов Р450. В выборку включались только те семейства, для которых известно не менее 5 форм цитохромов Р450, причем для каждой формы известна полноразмерная последовательность аминокислотных остатков (450+50 аминокислотных остатков для микросомальных и мигохондриальных форм, 350+50 для бактериальных форм). Состав сформированной выборки приведен в таблице 1.

Таблица 1. Выборка белков подсемейства цитохромов Р450.

Животные Растения Грибы Бактерии ВСЕГО

Семейства 21 26 6 3 56

Подсемейства 84 78 27 31 220

Белки 425 382 61 39 907

Средняя идентичность последовательностей в сформированной выборке составляла 24+3%. ; •■■■• < '

Исследование мотивов частного проводились на выборке цитохромов Р450 семейства стероловых деметилаз CYP51. Всего в эту выборку вошло 36 последовательностей, из них: 6 форм животного происхождения, 5 - растительного, 20 -низшие грибы, 4 - бактерии и 1 - простейшие. Средняя идентичность последовательностей в семействе составляет 35+7%. Для анализа полученных результатов использовались данные о пространственной структуре цитохрома Р450 из микобактерии туберкулеза (CYP51MT, код PDB - 1Е9Х).

2.2. Локальное выравнивание

Для проведения локального выравнивания использовалась программа BLAST. При расчете гистограмм счетов применялась версия программы, установленная на сервере ГУ НИИ БМХ РАМН, поддерживающая режимы пакетной обработки запросов. Оценка локального сходства между парой последовательностей проводилась при помощи Интернет-версии программы bl2seq. Во всех случаях использовались следующие параметры локального выравнивания:

- подпрограмма: blastp, матрица замен: BLOSUM62

- штраф за открытие вставки: 11, штраф за продолжение вставки: 1, длина слова: 3

- ограничение на вероятность случайного совпадения (expectation): 10.0

2.3. Кластерный анализ

Кластерный анализ проводился методом невзвешенных средних на основе матрицы попарных сходств между последовательностями белков. Сходство между парой последовательностей оценивалось при помощи идентичности глобального выравнивания. Глобальное парное выравнивание рассчитывалось с использованием программы ALN со следующими параметрами:

- матрица замен: BLOSUM62;

- штраф за открытие вставки: 8+3, штраф за продолжение вставки 4+2; конкретные значения подбирались с использованием случайных последовательностей.

Определение границ кластеров. Для определения границ, кластеров использовалось унифицированное правило, применимое для всех кластеров в составе надсемейства. В зависимости от специфики задачи использовалась одна из следующих методик:

- Метод «колена» - оценка зависимости скорости агломерации (образования кластеров) от шага кластерного анализа;

- Индекс Джаккарда - оценка соответствия состава кластеров с семействами и подсемействами, выделяемыми согласно номенклатурной систематике надсемейства. Оптимальным считается уровень отсечения, при котором достигается наилучшее соответствие между формальными кластерами и номенклатурными группами - семействами и подсемействами.

- Коррекция границ кластеров с использованием критерия структурно-функциональных: мотивов осуществляется при помощи адаптированного статистического критерия Шермана.

2.4. Иерархическое выравнивание

В основе процедуры иерархического выравнивания, применяемого в работе, лежит алгоритм множественного выравнивания, последовательно применяемый к группам сходных последовательностей. Группы формируются методом кластерного анализа. В данной работе использовался итерационный метод оптимизации множественного выравнивания, реализованный в программе РЯПР. Использовалась матрица замен РАМ250, дополненная специальными символами, обозначающими группы аминокислотных остатков (табл. 2). Группировка остатков производилась путем кластерного анализа матрицы замен РАМ250. Алгоритм множественного выравнивания был адаптирован для работы со специальными символами, что позволило выравнивать не только последовательности аминокислотных остатков, но и консенсусные последовательности.

Таблица 2. Специальные символы, используемые для обозначения групп аминокислотных остатков

Символ* [а] [+] [=] [п] [в]

Состав группы БТУУ Ш_ПЕОМ_ЦМУ Л5Ч О

+ специальный символ [.] использовался для обозначения любого аминокислотного остатка

Результаты множественного выравнивания представлялись в виде консенсусной последовательности. Консенсусная последовательность содержит консервативные остатки, характерные для . большинства (или для всех), , последовательностей в множественном выравнивании. Изменяя уровень консервативности, регулируется состав

9

консенсуса, т.е. - количество выносимых в консенсусную строку консервативных символов. Плотность консенсусной последовательности рассчитывалась как отношение числа консервативных позиций к общей длине консенсуса. Оптимизация результатов множественного выравнивания достигалась пугем 10-15-ти кратного перезапуска алгоритма при варьировании трех параметров: штраф за открытие вставки, штраф за продление вставки и порядок следования выравниваемых последовательностей. Рандомизация параметров проводилась до тех пор, пока плотность консенсусной последовательности не достигала максимального значения и больше не менялась.

В работе используется общепринятая номенклатура для обозначения систематических идентификаторов форм цитохромов Р450. После префикса "СУР" указывается числовое обозначения семейства, далее следует буквенное обозначение подсемейства, затем - числовое обозначение гена. После систематического идентификатора может указываться видовая специфичность формы.

2.5. Выявление мотивов в консенсусной последовательности

Выявление структурно-функциональных мотивов в составе консенсусной последовательности производилось при помощи статистического критерия Шсрмана. Указанный критерий позволяет для заданной битовой строки (см. рис. 1) получить оценку вероятности, описывающую характер распределения значений (нулей или единиц) в строке. Большие значения вероятности отражают тенденцию группировки значений в компактные кластеры.

На первом шаге алгоритма, консенсусная строка перекодировалась в битовое представление, согласно которому 0 соответствовал вариабельной позиции, а 1 соответствовала консервативной позиции консенсуса. С использованием заданного окна (как правило, его размер брался равным 20 остаткам), консенсус разбивался на перекрывающиеся подстроки. Для каждой подстроки вычислялась оценка вероятности Р{»>»'„,}; где критерий >е рассчитывается по формуле:

(1), :

а +1

а >с,м - оценка для случайного характера распределения значений в битовой строке.

Кроме того, битовая подстрока инвертировалась и для инвертированной строки рассчитывалась оценка Р1т.

Из всего множества подстрок, сгенерированных на основе консенсусной последовательности, отбирались удовлетворяющие критериям: Р>0,95 и Р,т.<0,51. Для каждой позиции / в консенсусе рассчитывался счет 5, вхождения в состав мотива как количество раз, которое указанная позиция встречается в отобранном наборе подстрок. Непрерывные последовательности отличных от нуля оценок длиною более 5 символов рассматривались как мотивы.

Множественное выравнивание

Консенсус

____ Битовая

строка

Статистический критерий w

EJTTVTFy»4SK0WV*B г ITS PTPVFG-CWYE ГУ*- -VP FG • V,"fV

KAY- ГТР.Т FCEGWTt! ;

. . Y. ,.P.FG..V.a. — ;

ooiaa-Jioiiociois i

Г-----u-u------1

I t..............T....IT.T..........r.—( I

¡-¡CaDOdMllDOlftlii >—

Инверсия битовой строки

llOlllOiOCllOlOl

,Ir.

■ Y. .

.д. Кандидаты

P,, и P.re.

[фильтр: jp > 0.95, T'm, < 0.5l]

¡ы re. .v Наилучшие кандидаты

a

4*

EF: с ;-О0О»2222222110 . . Y. . . EJO^JLji . мотив

Рис. 1. Алгоритм выявления структурно-функциональных мотивов в составе консенсусной последовательности.

3. Результаты и обсуждение

3.1. Предпосылки наличия мотивов в надсемейства и семействах цитохромов P4S0

В основу данной работы легли результаты, полученные в ходе анализа надсемейства цитохромов Р450 при помощи программы локального выравнивания BLAST. Сущность эксперимента, результаты которого приведены на рис. 2, заключается в проведении сравнения всех последовательностей в отобранной группе белков друг с другом (кросс-сравнение). В качестве группы может фигурировать как все надсемейство целиком, так и отдельные подгруппы белков в его составе — семейства.

По результатам сравнения групп белков строятся гистограммы распределения счетов локального выравнивания.

(A) Randam vc RanOom

(a) CYP1 Vi CYP1

s s SOC1'

t. S

l ДК»

1 ЭОО 10C1

(r) CYP3 vs CYP3

I и0

f 500

* X P

' n 4 *

лл rV^r r;. ru.

t v\» 4 se / « У mjîoei 1 * * 4 \ * « it,

|s) CYP1 v

■ »'1

I KO

S rtO^ i

S го»

(«) CYPtïbfP^ V« CYP1+CYP3 —f" "\ /

„ÏT

s

| W0

I ».

i ЗЖ

г

3 SOC'

i

L

ftic 2. Гистограммы распределения счетов локального выравнивания, полученных в результате кросс-сравнения выборок: (а) подсемейство, (б) случайно сгенерированные последовательности символов, (в) семейство CYP1, (г) семейство CYP3, (д) семейство CYP1 с семейством CYP3, (е) группа CYPJ + CYP3.

Результаты, представленные на гистограмме 2а свидетельствуют о том, что для большинства пар последовательностей надсемейства характерны участки локального сходства. Счет, вычисляемый в результате выравнивания этих локальных участков, в среднем равен 100 битам, что определяет положение наиболее выраженного пика на гистограмме. Минимальное значение счета, получаемого при выравнивании цитохромов Р450, соответствует 50-60 битам, что обеспечивает возможность достоверно отличить членов надсемейства от случайно сгенерированных строк (см. рис. 26).

, . , Кроме наиболее выраженного, первого пика, гистограмма на рис. 2а содержит три минорных пика. Наличие минорных пиков нарушает общий ввд кривой, описывающей статистическое распределение счетов локального выравнивания. Для объяснения наблюдаемого феномена необходимо обратится к гистограммам 2в-2е.

На рис. 2в и 2г приведены гистограммы счетов локального выравнивания, накопленных в результате кросс-сравнения последовательностей семейств СУР1 и СУРЗ. Оба семейства насчитывают практически одинаковое количество белков, при этом средняя идентичность последовательностей семейства СУРЗ (68,9+8,6%) превышает таковую последовательностей семейства СУР1 (55,4+16,5%).

Сравнение структурно близких белков, входящих в одно семейство, приводит к повышению счета локального выравнивания, как это показано на гистограммах 2в и 2г смещением пиков гистограммы к отметкам 600 и 700 бит соответственно. Интересно, что смещение в большую сторону (к отметке 700) наблюдается дня семейства СУРЗ, характеризующегося более высоким сходством входящих в него белков.

В то же время, в результате кросс-сравнения семейств друг с другом наблюдается единственный пик, соответствующий отметке 100 бит. Очевидно, что этот пик определяет элементы сходства, общие для всего надсемейства в целом. Этот пик, соответствует первому пику на гистограмме 2а.

Рис. 2е позволяет утверждать, что локальные элементы сходства, присутствующие в определенных группах в составе надсемейства цитохромов Р450, приводят к отклонению гистограммы распределения от канонической формы распределения экстремальных значений. Кроме доминирующего пика 100 бит, присутсвуюг дополнительные пики, обусловленные элементами сходства членов семейств СУР1 и СУРЗ.

Таким образом, на основе анализа гистограмм распределения счетов локального выравнивания в надсемействе и отдельных семействах можно сделать вывод о наличии в структуре последовательностей цитохромов Р450 участков локального сходства, которые в дальнейшем обозначаются как мотивы. Причем можно выделить две группы мотивов: мотивы общности, характерные для всех белков надсемейства, и мотивы частного, присутствующие только в отдельных семействах.

Рассмотренные выше доказательства наличия мотивов в надсемействе цитохромов Р450 основываются на традиционной систематике этих белков. В то же время, правомочна обратная формулировка проблемы, в рамках которой предлагается найти такое разделение надсемейства белков на группы, для которого некая интегральная оценка локального сходства будет максимальна. Проблема может быть решена при наличии алгоритма.

способного оценивать локальное сходство для групп белков, а не для выбранной пары белков (как это делается при построении гистограмм). Одновременно, следует решить задачу непосредственного выявления мотивов (а не только констатации фата их присугствия), для того чтобы иметь возможность сравнить их с имеющимися экспериментальными данными о структурно-функциональных особенностях цитохромов Р450.

3.2. Алгоритм выявления структурно-функциональных мотивов

Метод выявления мотивов путем статистического анализа характера распределения консервативных остатков в составе консенсусной последовательности обладает существенным ограничением, не позволяющим применять его в вышеизложенной форме для решения задач данной работы. Таким ограничением является невозможность применения критерия для сравнения между собой консенсусов, полученных для различных групп белков, или при использовании различных параметров (уровня консервативности, типа используемого редуцированного алфавита). Для снятия указанного ограничения в работе предлагается метод, основанный на оценке информационного содержания консенсусной последовательности.

Основы этого подхода заложены в алгоритмической схеме, рассмотренной выше. Действительно, для каждой подстроки в составе консенсуса рассчитывается два критерия: Р и Pinv Критерий Р определяет насколько компактно расположены в консенсусе консервативные остатки, критерий Pmv - наоборот, отражает компактность расположения вариабельных остатков. Применение фильтра, учитывающего оба критерия, приводит к тому, что алгоритм выявляет в составе консенсусной последовательности компактные кластеры консервативных остатков {Р>0,95) и при этом запрещает в составе этих кластеров наличие протяженных слитных участков вариабельности (P¡„v<0,51). В случае наличия таких участков, установленные пороговые значения критериев Р и Pinv разделяют подстроку на два мотива.

Особенности вычислительной схемы позволяют использовать ее для выявления участков локального сходства. Учитывая, что в составе консенсусной последовательности могут присутствовать несколько участков локального сходства, введем меру S как сумму значений, которые принимает счет (S,) в каждой позиции консенсусной последовательности:

S = £S;

(2)

Следует отметить. наличие взаимосвязи между стандартным методом оценки локального сходства, используемого в программе BLAST, и предложенной суммарной оценкой S. На рис. 3 показана корреляция между значениями S и счетом локального парного выравнивания, рассчитанного программой BLAST. Для расчета величины S использовались консенсусные последовательности, полученные при задании различных уровней консервативности. Расчет битового счета локального выравнивания производился путем выравнивания консенсусной последовательности с самой собой, при этом вариабельные участки заменялись случайно сгенерированными символами.

Взаимосвязь между счетом локального выравнивания и предлагаемым критерием для выявления мотивов в консенсусной последовательности, отображенная на рис. 3, свидетельствует об адекватности реализованного алгоритмического решения. В то же время, принципиальным отличием предложенного критерия от стандартной процедуры вычисления счета локального выравнивания является возможность разложить его на индивидуальные потенциалы, приписанные каждому остатку в консенсусе. Оценка 5, зависит от окружения остатка », точнее от «предрасположенности» этого окружения к формированию участка локального сходства — т.е. мотива.

О 10 20 30 40

S X 10 "'

Рис. 3. Зависимость между счетам локального выравнивания (BLAST) и оценкой мотивов

Представление результатов множественного выравнивания в виде консенсусной последовательности используется довольно часто. Цель использования консенсусов

заключается в том, чтобы искусственно снизить сложность природных белковых последовательностей, сравнивая их друг с другом и вычленяя общую часть. Предполагается, что эта общая .часть более содержательна в информационном плане, нежели любая другая отдельна взятая часть первичной структуры белка. Основанием для этого предположения являются молекулярно-эволюционные гипотезы, в рамках которых предполагается, что функционально значимаячасть гена наиболее устойчива к спонтанным мутациям. . ., ■ . .. ,

В данной работе базовые постулаты молекулярной эволюции развиваются в рамках оригинальной математической модели. Основу модели составляет стихийно сложившееся интуитивное представление, бытующее в литературе, о наличии взаимосвязи между понятиями информационного содержания первичной структуры белка и соответствующей функциональной активностью (в частности, речь вдет о широко используемом постулате, что структура белка определяет его функцию). В более широком смысле, вместо функциональной активности используется понятие термодинамических барьеров фолдинга. В практическом плане постулат «структура определяет функцию» может трактоваться в том смысле, что элементы структуры с высоким содержанием информации с большей вероятностью определяют особенности функционирования белка. С этой точки зрения использование консенсусных последовательностей является попыткой вычленить наиболее информационно-насыщенную часть в наборе первичных структур белков.

В работе предлагается для оценки информационного содержания консенсусной последовательности использовать величину отражающую присутствие локальных участков выраженной гомологии (мотивов). Однако для того, чтобы оценить информационное содержание консенсусной последовательности, следует использовать не только величину но и комплиментарную ей величину:

8"1(^) = 8(Ь) (3)

где ¿5 обозначает битовую строку (консенсус). Введение комплиментарной величины Б"1, рассчитываемой для инвертированного консенсуса ( Ь.ч), обусловлено тем, что редукция информации в форме консенсусной последовательности только до некоего порогового уровня, после которого консенсус вырождается в строку, состоящую исключительно из вариабельных позиций. Пороговое значение вводится как равенство величин Л' и Л"1. При этом достигается максимальное значение оценки информационного содержания консенсусной последовательности/, рассчитываемое по формуле:

I = S/S"1, S<S-' I = S-'/S, S>S'

Формула (4) задает область определения величины / от 0 до 1. Значения близкие к нулю соответствуют двум случаям: консенсус перегружен консервативными остатками (гиперконсервативный консенсус) или консенсус перегружен вариабельными позициями (гипервариабельный консенсус). Значения оценки информационного содержания близкие к единице отражают оптимальное состояние консенсуса с точки зрения наличия в нем структурно-функциональных мотивов.

600500 400 300 200 100

о

Плотность консенсуса(%)

Рис. 4. Интегральная оценка S наличия мотивов в консенсусной последовательности и комплиментарная ей величина S~' в зависимости от плотности консенсуса.

На рис. 4 представлены результаты, полученные путем расчета параметров S и S~' для консенсусов рахчичных семейств и подсемейств цитохромов Р450.

Величина оценки S принимает максимальное значения при 100% плотности консенсуса. Плотность 100% означает, что консенсус состоит только из консервативных позиций, вариабельные участки отсутствуют. Такая ситуация может возникать при высокой степени гомологии между анализируемыми последовательностями, что не позволяет извлечь информацию о функционально важных участках - т.е. информационное содержания такого консенсуса стремится к нулю. По мере того как увеличивается степень разнообразия исследуемого набора первичных структур, падает плотность консенсуса л соответственно снижается величина S. Снижение величины S монотонно происходит до

Оценка по критерию Шврмана (S, S )

ш го зО 40 и во то an <ю

нуля, что приблизительно соответствует 10% уровню плотности консенсуса. Последний, при этом, представляет собой последовательность вариабельных позиций и так же не несет содержательной информации.

№|форывиионное содержание. I 11

0,6 0.4-

О КПСЛР5? V КП онучей«** груш

0 0.2 0,4 0,е 0.8 1

Плотность консенсуса

Рис. 5. Зависимость оценки информационного содержания от плотности консенсусной последовательности. Данные получены для семейства СУР52 при варьировании уровне консервативности консенсуса.

Рассматривая возрастание величины 5 по мере увеличения плотности консенсуса можно отметить, что с точки зрения информационного содержания процесс на определенном уровне достигает максимума величины I, а затем она неуклонно снижается (см. рис. 5). Формализовать это наблюдение удается, если привлечь величину которая увеличивается по мере уменьшения плотности консенсусной последовательности (рис. 4). Предлагается считать (и правомочность этого допущения доказывается в данной работе), что баланс между величинами ^ и У1 соответствует максимально информативному консенсусу. В его составе можно выделить локальные мотивы, используя значения потенциала 5, > 0, где / - номер позиции в консенсусной последовательности (рис. 6).

' ''-■:• ■ позиция {.'}

Рис. 6. Значения потенциала & для позтщй консервативных последовательностей семейства СУР 51. Пики указывают расположение и границы структурно-функциональных мотивов. > ' : I.

Для сравнения оценок информационного содержания, полученных для консенсусов разных групп, вводится нормировочный фактор, отражающих огношение между величиной Б0с), полученной для исследуемого консенсуса к, и 8(тс1(к)), полученной для консенсуса, в котором порядок следования консервативных и вариабельных позиций нарушен случайным образом (при этом, очевидно, плотность консенсуса не меняется):

1аьв = 1*8(к)/8(гпс1(к:)) (5)

3.3. Мотивы общности

Для выявления мотивов общности использовалась процедура инвентаризации в алгоритмической реализации. Методика инвентаризации включает в себя кластерный анализ, определение границ кластеров, построение консенсусов для кластеров методом множественного выравнивания при заданном уровне консервативности 75%, и построение общего консенсуса для надсемейства путем множественного выравнивания консенсусов кластеров. В данной работе, с использованием алгоритма оценки информационного содержания консенсуса с точки зрения наличия структурно-функциональных мотивов, был пересмотрен критерий оценки уровня консервативности консенсусных последовательностей.

Ранее использовался фиксированный критерий, установленный на уровне 75%. Указанное значение применялось для всех семейств и подсемейств, без учета особенностей включаемых в них последовательностей цитохромов Р450. Негативным эффектом унификации уровня консервативности консенсуса являлось то, что информация о значимых структурно-функциональных элементах выпадала из состава консенсуса. С другой стороны, в раде случаев консенсусы (особенно уровня подсемейства) характеризовались высокой плотностью, что в дальнейшем приводило к разбалансировке множественного выравнивания на следующем уровне иерархии.

Особый случай представляли собой номенклатурные подгруппы (кластеры), включающие только один белок (т.н. синглетоны). В отсутствии формальных критериев оценки' информационного содержания, в предыдущих работах единственная последовательность подгруппы фигурировала в качестве полноценной анализируемой единицы наряду с действительными консенсусами, полученными для подгрупп из нескольких белков.

В ходе процедуры инвентаризации надсемейства, результаты которой рассматриваются в данной работе, синглетоны обрабатываются следующим образом: каждый из уже построенных консенсусов, имеющий наивысшую возможную информативность, поочередно выравнивается с последовательностью-синглетоном. На основании проведенных попарных сравнений строятся вторичные консенсусы, из которых отбирается тот, который обладает наибольшим информационным содержанием. Этот консенсус в дальнейшем используется в качестве представителя синглетона для проведения множественного выравнивания на следующем уровне иерархии надсемейства.

Результаты проведенной инвентаризации отражены на рис. 7 в виде схематического изображения консенсусной последовательности надсемейства цитохромов Р450. В его составе можно выделить следующие элементы общности.

В консенсусе надсемейства присутствуют пять мотивов, характерных для всех цитохромов Р450. К ним относятся, альфа-спирали С, I, К, меандр (извилина) и гем-пептид. Так называемая триада ERR является элементом спирали К. Второй аргинин, входящий в состав триады совместно с извилиной образуют сетку водородных связей, обеспечивающую пространственную организацию консервативных участков при формировании белкового фолда. В свою очередь, меандр, в ансамбле со спиралью I и гем-пептидом принимает участие в фиксации гема. Спираль I сочетает структурную роль (фиксацию гема) и функциональное назначение — фиксацию молекулярного кислорода в относительной близости от каталитического центра (атом железа в составе гема). Таким образом, мотивы общности, входящие в С-концевую часть консенсуса надсемейства обеспечивают формирование фодд-детерминирующего ядра цитохромов Р450 и поддерживают функцию монооксигеназного катализа. Рассмотренные выше мотивы общности проявляют наибольшею консервативность в ходе молекулярной эволюции белков надсемейства цитохромов Р450.

N-концевая часть консенсуса свидетельствует о значительной вариабельности этого участка структуры цитохромов Р450. Единственный выявленный мотив приходится на центр спирали С, и может быть описан в виде универсального паттерна как [WH]xxR. Однако, детальное исследование N-концевого фрагмента консенсуса позволяет выявить еще два дополнительных консервативных элемента, которые, в силу своей незначительной протяженности формально не фигурируют в качестве структурно-функциональных мотивов. Среди них - пролиновый кластер, выявляемый только в структуре микросомальных цитохромов Р450 формирует узнаваемую сигнатуру РххР. Функционально этот кластер отграничивает жесткой конструкцией белковую глобулу от трансмембранного якоря.

(И-1

(И-;?

...ОС...

I. . . ^Уп.й. . -ПК-Л. .

..„О —

.ВС .....

..^^ надсем

_. . .ИЯ СУРН '-Ь-Л...........в.йПП.| С.УР2

► »-.«Е--

ач: 6 Л

----!......п...........п. .«.........

В. .. .кц........1. ,е......п. .

ПЧИЯ,. .я. ,йпйк. -пьи.л. .Ел.\.па„п. .с...

-EF.--.aF............-

155

.м.

нддсом

СУР*1 СУР2

|—I надсем ---I СУР51 ... I СУР2

* «К..........» *......411.............

215..........-..................п-.-п........п.........п........| надсем

-....-1.Р----------НО.А». .........ипп.. .пп. -V* .й. . . -П5бпп1$. | ОГР51

240 .....п. ..п.. .<1......и»........ОМ1...П.............»11 СУР2

246

г«

300

—«К---

п.. -п.Е1 надсем

.....СУР51

сур;

307 ..К-. 2/2 ¡^(«п 360 ПОЙ..

.П.С..п. -

.... ,|ШВЧяШ|Н1,:

. .а____

..л--.. -5П..£>. .

»май-»

Р.Р.Я.-

а.р.на.

I надсем

сур я -I СУР2

320 4)9 о.

п. rjSI.PH-.rr.il.. Г '

~ FLF.T5nLQ.F-.Р.-Р.

......1 надсем

СУР51 |>*..Р. I СУР2

Рис. 7. Консенсус надсемейства цитохрамов Р450, полученный в результате оценки информационного содержания результатов множественного выравнивания в ходе процедуры инвентаризации, мдр — меандр; про — пролиновый кластер. В выравнивание также включены консенсусные последовательности для семейств СУР2 и СУР51.

3.4. Мотивы частного в семействе стероловых деметилаз

Семейство стероловых деметилаз (СУР51) уникально для надсемейства цитохромов Р450. Особенность этой группы белков заключается в том, что его члены встречаются в представителях всех царств живой природы. При этом, следует отметить высокую консервативность входящих в семейство СУР51 белков и высокую субстратную специфичность, ориентированную исключительно на метаболизм соединений стеролового ряда.

Анализ семейства проводился в соответствии с общей схемой инвентаризации. Результаты кластерного анализа показали, что в составе семейства присутствуют 5 групп белков. В группы объединились белки, принадлежащие к одному царству. Для каждой группы было проведено множественное выравнивание и построены соответствующие

консснсусные последовательности. С целью выравнивания информационного содержания консеисусных последовательностей, границы кластеров были скорректированы, в результате чего возникли следующие группы: грибы, бактерии, растения+простейшие и животные+растения. Консенсусы групп были в свою очередь выровнены между собой и скомпонованы в единый консенсус семейства СУР51. Одинаковый уровень информационного содержания составляющих консенсусов обеспечивает равный вклад каждого белка семейства стероловых деметилаз в общую консенсусную последовательность.

в* .Г,.YS,. .Г,ч

131 X. 90 «. У 30» .»¿Ï-. 109 .El)Y-. îai ..¿Т-. ' 1...

141 ................

1«6 ..Я..л..во......

16» . ж*&с. .«m...,. 16» • V.т.е.B-L...

1*1 ,.W. ............

1..............

ERs.. .v. р.го.ст.фу.. и гс.av.в

• »Г»,: ÛQV....Л в-VFt..да:

■ anit.B

.n>ï ..Л.

«п.. j 8 I

Яр<ММП tlVNflM

хнвоеиша+р*е*«иоо ра enn» ttipocwfta консенсус

i Бактярмк | консгхсуе

¿да]— СМ . .!>.( ....... agb-wi*......

..et.CLft. .л..«L.i.i . jtrt+.в. f

IГМ.CL.С ЕпЯ. .Ь-».\ tjLa.DLD.d. .

ГЛ. .СЬ.£ -яЯ..t.. . «...»».вв.!

ГМ .CL.С ..K..L.... »Jn«t .n» »'. .ï

| раст-вии*-»проut a fum■ I коксвмСУ?

a-ei .PL.. sue ш. .. i 225 LP Ра S25 LPnP. .. 241 LUi. . ..

• RU. A. . R MA

. ВО. .

.ГГ...1..B+-.

£ a.XX.sMC-.

,.«OrtLQ.. nOa . УК.СЯ,. . .«OnL. ..«.».*+.C. .

.. Dnn. .___.

—îîîUi"*.

301 rmlsol/isGOHBSs I . . .4 , . .La

îiS .-м.л.ЯИЯЬ IÎ..W.L.-L

S84 ftlIJ.L.ASpHrSS TeaW.G.en га* nnnA»nr*aoHT9s:Tetw«...MI 301 йГ.ПД.!П. bftomfi» - ■

S.IAtft.

^»шь+ф.». Л^ляиай

: "ПА . | ipflMW

I бакпркц t жи»овмы«+р«ет*икн

i кйнсвисуе

• .ïn—.вКХ. .в.. в.. «В.. ..».».. I. .. . — . .*. 1P.OH.V. ,1Н. . -KL. ..

*. v— •«*.г>мся. inb.s*. + ... ■ .,.«>•-....пР.в..п..*».. ......

t 5«>сг»рмя

«- - *

473 . P. . в-»..«•.-« —

• SP*. Pt ;»ВЙВЛСлСв.П . atn isaHH.C.Q,

*а*я с с.. г»

хи лов«««fp*c*dim рл rifl« AVetUKM*

imnoimid/I)

Pua 8. Мотивы частного в составе структурно-функциональной карты семейства стероловых деметилаз. MFF—мотив; SRS - участок узнавания субстрата.

Структурно-фунрадиональная карта семейства CYP51 приведена на рис. 8. На рисунке отображена не только общая консенсусная последовательность, но и составляющие консенсусы сформированных групп белков. Отмечены мотивы среди которых путем сравнения с литературными данными можно выделить 2 типа. К первому принадлежат участки, обеспечивающие функциональную специфичность стероловых деметилаз - MTF1, MTF2, MTF3, MTF4. Мотивы же, обозначенные как MTF5- MTF7,

совпадают с мотивами консенсуса надсемейства (см. рис. 7), т.е. отвечают элементам общности.

3.5. Использование критерия оценки мотивов для корректировки границ кнастеров

В ходе кластерного анализа, белки объединяются в группы (кластеры) на основе меры сходства. На каждом шаге либо новые белки вливаются в состав уже существующего кластера, либо образуются новые кластеры. Как только в ходе кластеризации обособляется группа белков, можно провести множественное выравнивания соответствующих последовательностей аминокислотных остатков, построить консенсус и оценить уровень его информационного содержания. Таким образом, каждый шаг кластерного анализа может быть сопоставлен с соответствующей величиной информационного содержания (рис. 9).

семейство cyps Ai семейство

ИНФОРМАЦИОННОЕ CCUtfc РЖАНИЕ КП ИН«*>Ш1*«НМ<* СОЦЬИИАНЖ КП

Рас. 9. Уточнение границ кластеров семейств CYP1 и CYP3 с использованием оценки информационного содержания консенсусных последовательностей. КП — консенсусная последовательность.

По мере того, как белки объединяются в группы, информационное содержание консенсуса этих групп возрастает. Прохождение каждого нового узла дендрограммы привносит новые объекты к кластеру, что снижает плотность консенсуса и увеличивает его информационное содержание. На одном и том же шаге агломерации может

образоваться несколько новых кластеров, соответственно на диаграмму зависимости информационного содержания от шага кластеризации наносится ряд точек, количество которых соответствует числу узлов. Возрастание информационного содержания кластера продолжается до тех пор, пока в его состав не вольются «чужеродные» структуры, в которых отсутствуют мотивы, специфические для генов кластера. Это приводит к снижению оценки информационного содержания и служит критерием останова агломерации.

Уровень останова неодинаков для различных семейств. Так, в случае семейства СУРЗ максимум информационного содержания приходится на кластер, формирующийся на шаге кластеризации уровня 35% средней идентичности. Для семейства СУР1 этот порог на 20% ниже и составляет 15%.

Рассмотренный частный пример позволяет заключить, что не существует универсального порога кластеризации для всего надсемейства цитохромов Р450. В каждом случает границы кластеров (семейств) подлежат уточнению с учетом структурных особенностей объединяемых белков. Если для уточнения границ кластеров используется предлагаемый критерий, основанный на оценке наличия общих структурно-функциональных мотивов в кластере, то в этом случае удается добиться существенного повышения уровня соответствия между составом кластеров и традиционными номенклатурными подгруппами — семействами (табл. 3).

Табл. 3. Значения критерия соответствия Джаккарда, псяученные при нахожденгш уровня отсечения различными методами.

Метод нахождения границ кластеров Уровень отсечения (средний % идентичности белков в кластере) Соответствие состава кластеров и семейств, % (индекс Джаккарда)

индекс Давида-Болдина 39 67

наилучшее совпадение с номенклатурой 35 80

метод «колена» 39 68

критерий структурно-функциональных мотивов 15-43 . 84

Видно, что предлагаемый критерий останова значительно превосходит по показателю соответствия состава стандартные подходы - метод «колена» и ивдекс Даввда-Бодцина. Из этого можно заключить, что критерий, основанный на счете информационного содержания консенсусной последовательности, действительно позволяет получать функционально родственные группы белков. Следовательно и сами

мотивы, лежащие в основе расчета информационного содержания, представляют собой структурно или функционально значимые участки.

4. Выводы

4.1. Разработан алгоритмический метод, позволяющий выявлять участки локальной консервативности для заданного набора первичных структур белков. Метод основан на представлении множественного выравнивания в виде консенсусной последовательности с последующей статистической оценкой ее информационного содержания.

4.2. Для надсемейства цитохромов Р450 показано, что выявленные участки локального сходства соответствуют структурно-функциональным мотивам. В консенсусе надсемейства мотивы общности определяют фодд-детерминирующую основу белка, обеспечивают фиксацию гема, молекулярного кислорода и формирование канала доступа лигавда. В консенсусе семейства стероловых деметилаз мотивы частного отвечают участкам специфичного узнавания субстрата.

4.3. Применение разработанного алгоритма позволяет определять уровень отсечения при проведении кластеризации последовательностей надсемейства. Повышение уровня соответствия между составом кластеров и семействами, сформированными согласно общепринятой номенклатуре, свидетельствует о значимости выявляемых мотивов для задачи определения функциональной специфичности цитохромов Р450.

5. Список опубликованных работ по теме диссертации

Lisitsa A.V., Gusev S.A., Miroshnichenko Y.V.. Archakov A.I. "Biomformatic insight into the unity and diversity of cytochromes P450" (2003) Proceedings of the 13-th Conference on Cytochromes P450, pp.7-13.

Лисица A.B., Мирошниченко Ю.В.. Иванов H.A, Арчаков А.И. Общее и частное в структурной организации белков надсемейства Р450. Аллергия, астма и клиническая иммунология, 2003, т.7, №8, с. 14-19.

Пономаренко Е.А., Лисица A.B., Карузина И.И., Мирошниченко Ю.В. Автоматизированное аннотирование функциональных свойств белков надсемейства цитохромов Р450. Аллергия, астма и клиническая иммунология, 2003, т.7, №8, с.95-99.

Лисица A.B., Гусев С.А., Мирошниченко Ю.В.. Кузнецова Г.П., Лазарев В.Н., Скворцов B.C., Карузина И.И., Говорун В.М., Арчаков А.И. Структурно-функциональные

мотивы стероловых 14-альфа-деметилаз (СУР51). Биомедшщнская химия, 2004, 50(6): 554-565.

Лисица А.В, Мирошниченко Ю.В.. Пономаренко Е.А. (2003) База знаний по цитохромам Р450. Симпозиум «Биоинформатика и компьютерное моделирование лекарств» в рамках X Российского национального конгресса «Человек и лекарство».¿ТР.

Содержание диссертации, кандидата биологических наук, Мирошниченко, Юлиана Викторовна

ВВЕДЕНИЕ.

1. ОБЗОР ЛИТЕРАТУРЫ.

1.1 Мотивы в структуре белка.

1.1.1 Виды мотивов.

1.1.2 Применение мотивов.

1.1.3 Методы выявления мотивов.

1.1.4 Базы данных мотивов.

1.1.5 Информационное содержание последовательностей.

1.1.6 Статистика сравнения последовательностей.

1.2 Надсемейство цитохромов Р450 как объект исследования.

1.2.1 Описание структуры цитохромов Р450.

1.2.2 Подходы к классификации надсемейства цитохромов Р450.

2. МАТЕРИАЛЫ И МЕТОДЫ.

2.1 Выборка.

2.2 Локальное выравнивание.

2.3 Кластерный анализ.

2.4 Иерархическое выравнивание.

2.5 Выявление мотивов в консенсусной последовательности.

2.6 Работа с базой знаний по цитохромам Р450.

2.7 Общая методология исследования критериев, основанных на анализе консенсусной последовательности.

2.8 Использование программы BLAST для оценки состава консенсусной последовательности.

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

3.1. Предпосылки наличия мотивов в семействах и подсемействах цитохромов

Р450.

3.2 Алгоритм выявления структурно-функциональных мотивов.

3.3. Исследование свойств статистических критериев наличия мотивов в консенсусных последовательностях.

3.4 Мотивы общности.

3.5. Мотивы частного в семействе стероловых деметилаз.

3.6. Использование критерия оценки мотивов для корректировки границ кластеров.

4. ВЫВОДЫ.

Введение Диссертация по биологии, на тему "Общее и частное в структурной организации белков надсемейства цитохромов Р450"

Уникальной особенностью белков надсемейства цитохромов Р450, привлекающей внимание исследователей, является способность этих ферментов окислять широкий круг разнородных субстратов, при этом сохраняя общность принципов катализа, физико-химических свойств и пространственной структуры (Lewis D., 2001). Охарактеризовано множество функций цитохромов Р450: в настоящее время в надсемействе цитохромов Р450 насчитывается более 3000 генов из 250 различных видов организмов [http://drnelson.utmem.edu/CytochromeP450.html]. Разнообразие в структуре и функции цитохромов Р450 определяет задачу выявления общих закономерностей строения этих ферментов.

С точки зрения формального подхода первичные структуры цитохромов Р450 представляют собой крайне разобщенную группу биологических текстов. Средняя идентичность всего надсемейства не превышает 25%, что вполне сравнимо с данными об идентичности случайных последовательностей аналогичной длины (Archakov A.I. et al., 1998). Поэтому надсемейство цитохромов Р450 является адекватным объектом для проверки статистических методов работы с биологическими текстами. Действительно, ведь аминокислотные последовательности цитохромов Р450 являются одновременно неслучайными (что доказано многочисленными лабораторными экспериментами) и случайными (как они предстают с точки зрения стандартных статистических подходов). Именно за счет этого феномена предоставляется возможность разрабатывать эффективные методы анализа аминокислотных последовательностей.

Цель работы: разработка подхода для выявления в аминокислотных последовательностях белков надсемейства цитохромов Р450 формальных элементов, определяющих структурную общность и функциональную специфичность различных форм этого фермента.

Задачи:

1. Предложить алгоритмический метод выявления структурно-функциональных мотивов в группе белков (цитохромов Р450) и исследовать его свойства.

2. Выявить мотивы структурной общности для всего надсемейства белков.

3. Выявить мотивы частного в отдельной группе функционально родственных белков.

4. Разработать методику классификации цитохромов Р450 с учетом структурно-функциональных мотивов и сравнить результаты с традиционной номенклатурой.

В работе предлагается модель структурной организации белков надсемейства цитохромов Р450, согласно которой минимальным «строительным» блоком фермента является структурно-функциональный мотив - участок последовательности, проявляющий статистически значимую консервативность в ряду гомологичных аминокислотных последовательностей. Предложенный непараметрический критерий позволяет определять мотивы в группах функционально сходных цитохромов Р450. Выявлено пять основных мотивов общности, определяющих белок в составе надсемейства. Анализируя индивидуальные семейства, удалось выявить дифференцирующие мотивы - т.е. мотивы частного, ответственные за структурное обеспечение функциональной специфичности.

В основу работы положена «островная» гипотеза эволюции биомакромолекул (№зЫка\уа К., 1993), согласно которой совокупность термодинамических условий белкового фолдинга представляется в виде ограниченных участков разрешенных состояний - «островов», окруженных «морем» конформаций, для которых фолдинг невозможен. Белок, претерпевающий изменения в ходе эволюционного процесса (или в ходе экспериментов по мутагенезу) толерантен лишь к ограниченному количеству модификаций точечного характера, по мере введения мутаций, белок «перемещается» по острову, при этом сохраняя целостность своей третичной структуры. Однако, как только объем введенных мутаций превысит определенный порог (незначительный по отношению к общему числу точечных мутаций, которые теоретически можно было бы предложить), белок покидает пределы «острова» и теряет способность к приобретению стабильной пространственной конформации. Автор «островной» гипотезы обоснованно полагает, что термодинамически выгодные состояния составляют крайне малую часть всех возможных конформаций и, поэтому, ассоциирует первые с маленькими островами, разбросанными в море.

Для выполнения данной работы в «островную» гипотезу было введено существенное дополнение. Оно заключается в предположении о том, что мутации возникают в первичной структуре не хаотично, а лишь в некоторых участках, не затрагивая других. Основанием для такого предположения является значительное количество опубликованных данных о наличие в структурах белков и генов локальных областей, имеющих особое значение для реализации биологической функции биомакромолекулы. Выявив участки белка (гена), устойчивые к мутациям, можно ассоциировать с ними основные структурные требования фолдинга и катализа (для ферментов), тогда как вариабельные участки рассматривать как «эволюционный шум», который служит, с одной стороны, связующим структурным наполнителем, а с другой стороны, несет в себе потенциал для дальнейшего эволюционирования белка.

В работе впервые комплексно рассматриваются принципы формализации подходов к классификации надсемейства цитохромов Р450. Предложена алгоритмическая методика для оптимизации результатов кластерного анализа на основе структурно-функциональных мотивов, определяемых по результатам множественного выравнивания. Показано, что выявляемые в группах белков консервативные элементы соответствуют участкам белка, имеющим значение для обеспечения общности структуры фолда и для реализации специфичной ферментативной активности. Таким образом, предлагается новый подход к решению актуальной научной задачи, связанной с анализом структурно-функциональных взаимосвязей в белках.

С точки зрения практического применения, полученные результаты могут быть использованы для прогнозирования функции новых белков надсемейства цитохромов Р450. Созданная методология может быть применена для решения актуальных задач биотехнологии: биосинтез новых химических соединений и конструирование ферментов-монооксигеназ с заданной функцией.

Монооксигеназная реакция, катализируемая цитохромами Р450, заключается во внедрении в липофильную молекулу субстрата атома кислорода (1-й этап биотрансформации). В результате растворимость окисленного вещества повышается и, после конъюгации, вещество выводится из организма. Таким образом, следует отметить, что цитохромы Р450 играют значимую роль в обеспечении постоянства внутренней среды организма. Понимание гомеостатической роли цитохромов Р450 может быть расширено за счет включения функции регулирования уровня гормонов: гемовые монооксигеназы надпочечников, простаты, щитовидной железы, эпителия ЖКТ участвуют как в синтезе, так и деградации гормонов (Rozman D. & Waterman M.R., 1998).

Цитохромы Р450 представляют собой потенциальные мишени для действия лекарственных препаратов (McFadyen М.С. & Murray G.I, 2005; Karlgren М. et al., 2006). На основе ингибиторов цитохромов Р450 создано целое поколение противогрибковых лекарств (Schiaffella F. et al., 2005). Ведутся исследования в области компьютерного конструирования ингибиторов форм цитохромов Р450 семейства CYP1 А, активность которых сопряжена с развитием онкологических заболеваний, в частности, рака легких (Smith G.B. et al., 2001).

Уникальность моноокисгеназной функции, выполняемой цитохромами Р450, обуславливает своеобразие молекулярно-эволюционных процессов в надсемействе. В настоящее время известно более 3 тыс. форм цитохромов Р450 (Nelson D.R., 2005), эти белки выявлены в геномах животных, растений, грибов и бактерий. В геноме человека насчитывается 62 гена, кодирующих цитохромы Р450, в геноме растений генов цитохромов Р450 - более 200. Если функции более 70% цитохромов Р450 человека известны, то для растений экспериментальной информации значительно меньше: каталитическая функция известна менее чем для 5% растительных форм.

Многообразие форм цитохромов Р450, по мнению исследователей, является естественным депозитарием заготовок для использования в биотехнологии. Известны случаи, когда цитохромы Р450 принимают участие в катализе реакций биосинтеза противоопухолевых препаратов (Chau М. & Croteau R., 2004). Экстракты цитохромов Р450 (микросомальные фракции тканей растений и животных) используются в качестве биореакторов для получения новых химических веществ (Abecassis et al., 2003). Интенсивно ведутся работы в области создания химерных форм цитохромов Р450 с заданной каталитической функцией (Otey C.R., 2006).

Как уже упоминалось, функциональное разнообразие надсемейства цитохромов Р450 сочетается с значительными различиями на уровне первичной структуры. В то же время, все известные в настоящее время пространственные структуры цитохромов Р450 характеризуются единообразным фолдом (Poulos T.L., 1995).

Начиная с 1989 года поддерживается систематическая номенклатура надсемейства цитохромов Р450. В семейство выделяются белки, гомологичные на 40%; группы белков, гомолгичные более чем на 46% объединяются в подсемейство (Nelson D.R., 1996). Наряду с формальными признаками сходства последовательностей, при создании номенклатуры авторы использовали дополнительную информацию о сходстве строения генов и об особенностях функциональной активности.

По-видимому, одним из основных недостатков существующей классификации следует считать ее искусственность. Пользуясь традиционной систематикой невозможно сделать выводы ни в отношении эволюционного, ни в отношении функционального сходства ферментов, входящих в семейства и подсемейства. Формально указанный недостаток ведет к возникновению исключений, описывающих отнесение к классификационной группе белка, который в рамках определенного функционального контекста должен принадлежать другому подразделу классификации.

В ряде работ предпринимались попытки пересмотреть принципы классификации цитохромов Р450 (Archakov A.I. et al., 2001; Nelson D.R., 1998).

Предлагаемые решения основывались на применении методов кластерного анализа и множественного выравнивания последовательностей. В частности, основанный на иерархическом выравнивании подход инвентаризации надсемейства позволил в работе (Лисица A.B., 2002) получить консенсус для надсемейства цитохромов Р450. При этом использовались методики, анализирующие первичную структуру в целом, без дифференцированного анализа отдельных элементов. С другой стороны, уже в 1992 году было показано, что, несмотря на общее структурное разнообразие, в строении цитохромов Р450 можно выделить локальные участки, несущие функциональную нагрузку (Gotoh О., 1992). Это наблюдение до сих пор не потеряло своей актуальности: предложенное в 1992 году понятие участков узнавания субстрата используется во многих работах, посвященных изучению структуры и функции цитохромов Р450 (Podust L.M., Stojan J. et al., 2001; Goldstone H.M. & Stegeman J.J., 2006). Обобщенной математической модели классификации надсемейства с учетом локальных структурно-функциональных элементов предложено не было, несмотря на то, что в работе (Гусев С.А., 2002) были показаны частные случаи успешного применения алгоритмов поиска мотивов для анализа надсемейства цитохромов Р450.

Таким образом, актуальной является задача совершенствования алгоритмической методики выявления структурно-функциональных элементов (мотивов) в надсемействе цитохромов Р450. Для решения этой задачи привлекается концепция наличия элементов общего и частного в структурах белков надсемейства с учетом основных положений «островной гипотезы», рассматривающей термодинамические ограничения белкового фолдинга (NishikawaK., 1993).

1. ОБЗОР ЛИТЕРАТУРЫ.

Заключение Диссертация по теме "Биоинформатика", Мирошниченко, Юлиана Викторовна

4. ВЫВОДЫ

4.1. Разработан алгоритмический метод, позволяющий выявлять участки локальной консервативности для заданного набора первичных структур белков. Метод основан на представлении множественного выравнивания в виде консенсусной последовательности с последующей статистической оценкой характера распределения консервативных остатков.

4.2. Для надсемейства цитохромов Р450 показано, что выявленные участки локального сходства соответствуют структурно-функциональным мотивам. В консенсусе надсемейства мотивы общности определяют фолд-детерминирующую основу белка, обеспечивают фиксацию гема, молекулярного кислорода и формирование канала доступа лиганда. В консенсусе семейства стероловых деметилаз мотивы частного отвечают участкам специфичного узнавания субстрата.

4.3. Применение разработанного алгоритма позволяет определять уровень отсечения при проведении кластеризации последовательностей надсемейства. Повышение уровня соответствия между составом кластеров и семействами, сформированными согласно общепринятой номенклатуре, свидетельствует о значимости выявляемых мотивов для задачи определения функциональной специфичности цитохромов Р450.

Библиография Диссертация по биологии, кандидата биологических наук, Мирошниченко, Юлиана Викторовна, Москва

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. (1983). Прикладная статистика. Основы моделирования и первичная обработка данных. Москва, Финансы и статистика. 471 стр.

2. Астахова Т.В., Олейникова М.А., Ройтберг М.А. (2002). Сравнительный анализ информационных биополимеров. Компьютеры и суперкомпьютеры в биологии (под ред. Лахно В.Д. и Устинина М.Н.). Москва-Ижевск, Институт компьютерных исследований. 449-457.

3. Волькенштейн М.В. (1986). Энтропия и информация. Москва, Наука.

4. Гайдышев И.П. (2001). Анализ и обработка данных. Специальный справочник. С.-Петербург, Питер.

5. Гусев С.А. (2002). Структурно-функциональные мотивы в последовательностях цитохромов Р450. Диссертация на соискание ученой степени кандидата биологических наук. ГУ НИИ БМХ РАМН им. В.Н. Ореховича, Москва.

6. Дегтяренко К.Н. (1992). Множественное выравнивание и анализ гомологии в надсемействе Р450. Диссертация на соискание ученой степени кандидата биологических наук. Институт биологической и медицинской химии, Москва.

7. Лисица A.B. (2002). Протеомный индекс надсемейства цитохромов Р450. Диссертация на соискание ученой степени кандидата биологических наук. ГУ НИИ БМХ РАМН им. В.Н. Ореховича, Москва.

8. Ляшенко A.A. (1996). Применение иерархического подхода для выявления структурно-функциональных взаимосвязей в надсемействе цитохромов Р450. Диссертация на соискание ученой степени кандидата биологических наук. ГУ НИИ БМХ РАМН им. В.Н. Ореховича, Москва.

9. Рубин А.Б. (2004). Биофизика в 2-х томах. Т.1: Теоретическая биофизика: Учебник. Москва, Издательство МГУ; издательство «Наука». Глава 3.

10. Черныш М.Ф. (2000). Опыт применения кластерного анализа. Социололгия. 4M, 12:129-141.

11. Яцкив И., Гусарова Л. (2003). Методы определения количества кластеров приклассификации без обучения. Transport and Telecommunication. 4:23-28.

12. Abecassis V., Urban P., Truan G., Pompon, D. (2003). Exploration of natural and artificial sequence spaces: towards a functional remodelling of membrane-bound cytochrome P450s. Biocatalysis and Biotransformation. 21:55-66.

13. Altschul S.F., Erickson B.W. (1985). Significance of nucleotide sequence alignments: a method for random sequence permutation that preserves dinucleotide and codon usage. Mol BiolEvol. 2:526-38.

14. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. (1990). Basic local alignment search tool. J Mol Biol. 1990. 215:403-10.

15. Archakov A.I., Degtyrenko K.N. (1993). Structural classification of the P450 superfamily based on consensus sequence comparison. Biochem Mol Biol Int. 31:1071-80.

16. Archakov A.I., Bachmanova G.I. (1990). Cytochrome P450 and active oxygen. Taylor and Francis: London, 170-81.

17. Archakov A.I., Lisitsa A.V., Zgoda V.G., Ivanova M.S., Koymans L. (1998). Clusterization of P450 superfamily using the objective pair alignment method and the UPGMA program. J. Mol Model. 4:234-238.

18. Archakov A., Lisitsa A., Gusev S., Koymans L., Janssen P. (2001). Inventory of the cytochrome P450 superfamily. J.Mol.Model. 5:140-142.

19. Attwood T.K., Beck M.E., Bleasby A.J., Degtyarenko K., Parry Smith D.J. (1996). Progress with the PRINTS protein fingerprint database. Nucleic Acids Res. 24:182-8.

20. Attwood T.K., Bradley P., Flower D.R., Gaulton A., Maudling N., Mitchell A.L., Moulton G., Nordle A., Paine K., Taylor P., Uddin A., Zygouri C. (2003). PRINTS and its automatic supplement, prePRINTS. Nucleic Acids Res. 31:400-2.

21. Bacon D.J., Anderson W.F. (1986). Multiple sequence alignment. J Mol Biol. 191:153-61.

22. Bairoch A., Bucher P., Hofman K. (1996). The PROSITE database, its status in 1995. Nucleic Acids Res. 24:189-96.

23. Bateman A., Coin L., Durbin R., Finn R.D., Hollich V., Griffiths-Jones S., Khanna A., Marshall M., Moxon S., Sonnhammer E.L., Studholme D.J., Yeats C., Eddy S.R.2004). The Pfam protein families database. Nucleic Acids Res. 32:D 138-41.

24. Brazma A., Jonassen I., Eidhammer I., Gilbert D. (1998). Approaches to the automatic discovery of patterns in biosequences. J Comput Biol. 5:279-305.

25. Bucher P., Bairoch A. (1994). In Proc of 2nd Int. Conf. On Intell. Systems for Mol. Biol., pp. 53-61, AAAI Press.

26. Castro L.F., Santos M.M., Reis-Henriques M.A. (2005). The genomic environment around the Aromatase gene: evolutionary insights. BMCEvol Biol 5:43.

27. Chau M., Croteau R. (2004). Molecular cloning and characterization of a cytochrome P450 taxoid 2alpha hydroxylase involved in Taxol biosynthesis. Arch. Biochem. Biophys. 427:48-57.

28. Corpet F. (1988). Multiple sequence alignment with hierarchical clustering. Nucleic Acids Res. 16:10881-90.

29. Cullin, C. (1992). Two distinct sequences control the targeting and anchoring of the mouse P450 1A1 into the yeast endoplasmic reticulum membrane. Biochem Biophys Res Commun. 184:1490-5.

30. Davies D.L., Bouldin D.W. (1979). A cluster separation measure. IEEE Trans. Pattern Anal. Machine Intell. 1:224-227.

31. Dayhoff M.O., Schwartz R.M., Orcutt B.C. (1978). In Atlas of Protein Sequence and Structure (ed. M.O. Dayhoff, ed.). Vol. 5, Suppl. 3., p.345. National Biomedical Research Foundation, Washington, DC.

32. Deken J. (1983). Probabilistic behavior of longest-common-subsequence length. In Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison. Sankoff D. & Kruskal J.B. (eds.), pp. 55-91, Addison-Wesley, Reading, MA.

33. Dembo A., Karlin S., Zeitouni O. (1994). Limit distribution of maximal non-aligned two-sequence segmental score. Ann. Prob. 22:2022-2039.

34. Doolittle R.F. (1989). In Prediction of Protein Structure and the Principles of

35. Protein Conformation, ed. G.D. Fasman, pp.599-623. New York: Plenum.

36. Doolittle R.F. (1986). OfURFs and ORFs: A Primer on How to Analyze Derived Amino Acid Sequences. Mill Valley: University Science Books.

37. Efron B., Halloran E., Holmes S. (1996). Bootstrap confidence levels for phylogenetic trees. Proc Natl Acad Sci USA. 93:13429-34.

38. Felsenstein J. (2006). Accuracy of coalescent likelihood estimates: do we need more sites, more sequences, or more Loci? Mol Biol Evol. 23:691-700.

39. Fitch W.M. (1983). Random sequences. J Mol Biol 163:171-6.

40. Gell-Mann M. (1994). A child learning the language: Algorithmic complexity and informational content. The quark and the jaguar: adventures in the simple and the complex. W.H. Freeman and Company: New York, 58-60.

41. Goldstone H.M., Stegeman J.J. (2006). A Revised Evolutionary History of the CYP1A Subfamily: Gene Duplication, Gene Conversion, and Positive Selection. J Mol Evol. Published online: 28 Apr 2006.

42. Gotoh O. (2000). Homology-based gene structure prediction: simplified matching algorithm using a translated codon (tron) and improved accuracy by allowing for long gaps. Bioinformatics. 16:190-202.

43. Gotoh O. (1999). Multiple sequence alignment: algorithms and applications. Adv Biophys. 36:159-206.

44. Gotoh O. (1996). Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol. 264:823-38.

45. Gotoh O. (1992). Substrate recognition sites in cytochrome P450 family 2 (CYP2) proteins inferred from comparative analyses of amino acid and coding nucleotide sequences. J Biol Chem. 267:83-90.

46. Graham-Lorence S., Peterson J.A. (1996). P450s: structural similarities and functional differences. FASEBJ. 10:206-14.

47. Graham S.E., Peterson J.A. (2002). Sequence alignments, variabilities, and vagaries. Methods Enzymol. 357:15-28.

48. Gray N. (1990). A program to find regions of similarity between homologous protein sequences using dot-matrix analysis. J Mol Graph. 8:11-5,25.

49. Gribskov M., McLachlan A.D., Eisenberg D. (1987). Profile analysis: detection of distantly related proteins. Proc Nail Acad Sci USA. 84:4355-8.

50. Gumbel E.J. (1958). Statistics of extremes. Columbia Iniversity Press, New York, NY.

51. Hedden P, Phillips AL, Rojas MC, Carrera E, Tudzynski B. (2001). Gibberellin Biosynthesis in Plants and Fungi: A Case of Convergent Evolution? J Plant Growth Regul. 20:319-331.

52. Henikoff S., Henikoff J.G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci USA. 89:10915-9.

53. Henikoff S., Henikoff J.G. (1993). Performance evaluation of amino acid substitution matrices. Proteins. 17:49-61.

54. Hulo N., Bairoch A., Bulliard V., Cerutti L., De Castro E., Langendijk-Genevaux P.S., Pagni M., Sigrist C.J. (2006). The PROSITE database. Nucleic Acids Res. 34:D227-30.

55. Jaccard P. (1912). The distribution of flora in the alpine zone. New Phytologist. 11:37-50.

56. Jonassen I., Collins J.F., Higgins D.G. (1995). Finding flexible patterns in unaligned protein sequences. Protein Sci. 4:1587-95.

57. Jonassen I. Methods for discovering conserved patterns in protein sequences and structures. Chapter 7 in Bioinformatics: Sequence Structure and Databanks edited by Des Higgins and Willie Taylor, Practical Approach Series, Oxford University Press 2000.

58. Karlin S., Altschul S.F. (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci USA. 87:2264-8.

59. Kimura M. (1991). The neutral theory of molecular evolution: a review of recent evidence. Jpn J Genet. 66:367-86.

60. Kocsor A., Kertesz-Farkas A., Kajan L., Pongor S. (2006). Application of compression-based distance measures to protein sequence classification: a methodological study. Bioinformatics. 22:407-12.

61. McFadyen M.C., Murray G.I (2005). Cytochrome P450 1B1: a novel anticancer therapeutic target. Future Oncol 1:259-63.

62. Nebert D.W., Nelson D.R., Adesnik M. et al. (1989). The P450 superfamily: updated listing of all genes and recommended nomenclature for the chromosomal loci. DNA. 8:1-13.

63. Nebert D.W., Nelson D.R. (1991). P450 gene nomenclature based on evolution. Methods Enzymol. 206:3-11.

64. Needleman S.B., Wunsch C.D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. JMolBiol. 48:443-53.

65. Nelson DR. (2003). Comparison of P450s from human and fugu: 420 million years of vertebrate P450 evolution. Arch Biochem Biophys. 409:18-24.

66. Nelson D.R. (1999). Cytochrome P450 and the individuality of species. Arch Biochem Biophys. 369:1-10.

67. Nelson D.R. (2005). Gene nomenclature by default, or BLASTing to Babel. Hum Genomics. 2:196-201.

68. Nelson D.R. (1998). Metazoan cytochrome P450 evolution. Comp Biochem Physiol C Pharmacol Toxicol Endocrinol 121:15-22.

69. Nelson D.R. (2002). Mining databases for cytochrome P450 genes. Methods Enzymol 357:3-15.

70. Nevill-Manning C.G., Wu T.D., Brutlag D.L. (1998). Highly specific protein sequence motifs for genome analysis. Proc Natl Acad Sci USA. 95:5865-71.

71. Nishikawa K. (1993). Island Hypothesis Protein Distribution in The Sequence Space. Viva Origino. 21:91-102.

72. Otey C.R., Landwehr M., Endelman J.B., Hiraga K., Bloom J.D., Arnold F.H. (2006). Structure-guided recombination creates an artificial family of cytochromes p450. PLoS Biol. 4:el 12.

73. Otey C.R., Silberg J.J., Voigt C.A., Endelman J.B., Bandara G., Arnold F.H.2004). Functional evolution and structural conservation in chimeric cytochromes p450: calibrating a structure-guided approach. Chem. Biol. 11:309-318.

74. Pietrokovski S., Henikoff J.G., Henikoff S. (1996). The Blocks database--a system for protein classification. Nucleic Acids Res. 24:197-200.

75. Podust L.M., Poulos T.L., Waterman M.R. (2001). Crystal structure of cytochrome P450 14alpha -sterol demethylase (CYP51) from Mycobacterium tuberculosis in complex with azole inhibitors. Proc Natl Acad Sci USA. 98:3068-73.

76. Podust L.M., Stojan J., Poulos T.L., Waterman M.R. (2001). Substrate recognition sites in 14alpha-sterol demethylase from comparative analysis of amino acid sequences and X-ray structure of Mycobacterium tuberculosis CYP51. J Inorg Biochem. 87:227-35.

77. Posfai J., Bhagwat A.S., Posfai G., Roberts R.J. (1989). Predictive motifs derived from cytosine methyltransferases. Nucleic Acids Res. 17:2421-35.

78. Poulos T.L. (1995). Cytochrome P450. Curr Opin Struct Biol. 5:767-74.

79. Poulos T.L., Finzel B.C., Howard A.J. (1987). High-resolution crystal structure of cytochrome P450cam. J Mol Biol. 195:687-700.

80. Poulos T.L., Raag R. (1992). Cytochrome P450cam: crystallography, oxygen activation, and electron transfer. FASEB J. 6:674-9.

81. Reich J.G., Drabsch H., Daumler A. (1984). On the statistical assessment of similarities in DNA sequences. Nucl. Acids Res. 12:5529-5543.

82. Rozman D., Waterman M.R. (1998). Lanosterol 14alpha-demethylase (CYP51) and spermatogenesis. DrugMetab Dispos. 26:1199-201.

83. Saqi M.A., Sayle R. (1994). PdbMotif--a tool for the automatic identification and display of motifs in protein structures. ComputAppl Biosci. 10:545-6.

84. Sawyer S. (1989). Statistical tests for detecting gene conversion. Mol Biol Evol. 6:526-38.

85. Schiaffella F., Macchiarulo A., Milanese L., Vecchiarelli A., Costantino G., Pietrella D., Fringuelli R. (2005). Design, synthesis, and microbiological evaluation of new Candida albicans CYP51 inhibitors. J Med Chem. 48:7658-66.

86. Schuler G.D., Altschul S.F., Lipman D.J. (1991). A workbench for multiple alignment construction and analysis. Proteins. 199:180-90.

87. Scordis P., Flower D.R., Attwood T.K. (1999). FingerPRINTScan: intelligent searching of the PRINTS motif database. Bioinformatics. 15:799-806.

88. Sellers P.H. (1984). Pattern recognition in genetic sequences by mismatch density. Bull. Math. Biol. 46:501-514.

89. Sherman B. (1950). A random variable related to the spacing of sample values. Ann. Math. Stat. 21:339-361.

90. Sherman B. (1957). Percentiles of the w(n) statistic. Ann. Math. Stat. 28:259-261.

91. Shrager J. (2003). The fiction of function. Bioinformatics. 19:1934-6.

92. Smith H.O., Annau T.M., Chandrasegaran S. (1990). Finding sequence motifs in groups of functionally related proteins. Proc Natl Acad Sci USA. 87:826-30.

93. Smith R.F., Smith T.F. (1990). Automatic generation of primary sequence patterns from sets of related protein sequences. Proc Natl Acad Sci USA. 87:118-22.

94. Smith T.F., Waterman M.S. (1981). Identification of common molecular subsequences. J. Mol. Biol. 147:195-7.

95. Sneath P.H.A. (1995). The distribution of the random division of a molecular sequence. Binary. 7:148-152.

96. Sneath P.H.A. (1998). The effect of evenly spaced constant sites on the distribution of the random division of a molecular sequence. Bioinformatics. 14:608616.

97. Sneath P.H.A., Sokal R.R. (1973). Numerical Taxonomy. San Francisco: Freeman.

98. Sonnhammer E.L., Eddy S.R., Birney E., Bateman A., Durbin R. (1998). Pfam: multiple sequence alignments and HMM-profiles of protein domains. Nucleic Acids Res. 26:320-2.

99. Staden R. (1988). Methods to define and locate patterns of motifs in sequences. Comput Appl Biosci. 4:53-60.

100. Tatusova T.A., Madden T.L. (1999). BLAST 2 Sequences, a new tool forcomparing protein and nucleotide sequences. FEMS Microbiol Lett. 174:247-50.

101. Taylor W.R. (1986). Identification of protein sequence homology by consensus template alignment. JMol Biol. 188:233-58.

102. Taylor W.R. (1990). Hierarchical method to align large numbers of biological sequences. Methods Enzymol. 183:456-74.

103. Via A., Helmer-Citterich M. (2004). A structural study for the optimisation of functional motifs encoded in protein sequences. BMC Bioinformatics. 5:50.

104. Walker J.M., ed. (2003). Directed Enzyme Evolution, Screening and Selection Methods. Totowa, Humana Press.

105. Wallace A.C., Borkakoti N., Thornton J.M. (1997). TESS: a geometric hashing algorithm for deriving 3D coordinate templates for searching structural databases. Application to enzyme active sites. Protein Sci. 6:2308-23.

106. Waterman M.S. (1994). Parametric and ensemble sequence alignment algorithms. Bull Math Biol. 56:743-67.

107. Whitlock J.P.J., Denison M.S. (1995). Induction of cytochrome P450 enzymes that metabolize xenobiotics. In: Cytochrome P450: Structure, Mechanism, Biochemistry. Ortiz de Montellano, P.R. (Ed.) Plenum Press: New York, 391.

108. Zhou D.J., Pompon D., Chen S.A. (1991). Structure-function studies of human aromatase by site-directed mutagenesis: kinetic properties of mutants Pro308-Phe, Tyr361-Phe, Tyr361-Leu, and Phe406-Arg. Proc Natl Acad Sci USA. 88:410-4.