Бесплатный автореферат и диссертация по биологии на тему
Аминокислотные остатки, определяющие специфичность в больших семействах белков
ВАК РФ 03.00.03, Молекулярная биология

Автореферат диссертации по теме "Аминокислотные остатки, определяющие специфичность в больших семействах белков"

На правах рукописи

Калинина Ольга Вячеславовна

Аминокислотные остатки, определяющие специфичность в больших семействах белков

03 00 03 - Молекулярная биология

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Москва - 2007

003069715

Работа выполнена на Факультете биоинженерии и биоинформатики Московского Государственного Университет им М В Ломоносова и в УНЦ «Биоинформатика» Института Проблем Передачи Информации РАН

Научный руководитель:

Доктор биологических наук, кандидат физико-математических наук Гелъфанд Михаил Сергеевич

Официальные оппоненты

Доктор физико-математических наук

Финкельштейн Алексей Витальевич (Институт белка РАН) Кандидат физико-математических наук

Есипова Наталия Георгиевна (Институт молекулярной биологии им В А Энгельгардта РАН)

Ведущая организация Институт математических проблем биологии РАН

Защита состоится <<2-Ч» мая 2007г в час на заседании

Диссертационного совета Д 002 235 01 при Институте молекулярной биологии им В А Энгельгардта РАН по адресу 119991, Москва, ул Вавилова,

С диссертацией можно ознакомиться в библиотеке Института молекулярной биологии им В А Энгельгардта РАН

Автореферат разослан апреля 2007 г

Ученый секретарь

32

Диссертационного совета Кандидат химических наук

Крицын

Общая характеристика работы

Актуальность темы

Изучение функций белков является одной из важнейших задач молекулярной биологии и биохимии В настоящее время количество опубликованных аминокислотных последовательностей, полученных путем прямого секвенирования или трансляции известных нуклеотидных последовательностей, во много раз превышает экспериментальные возможности исследования их функций Кроме того, в последние годы определена пространственная структура большого числа белков, функция которых неизвестна или малоизучена Поэтому все большую роль начинает играть функциональная аннотация т яйюо - методами биоинформатики Такая аннотация с необходимостью носит характер предсказания, но можег служить важной отправной точкой для дальнейших лабораторных исследований

Объем информации, накопленной к настоящему времени в базах данных последовательностей, доменов, пространственных структур белков, позволяет с достаточной точностью предсказывать тип биологической функции белка - класс транспортера, тип катализируемой реакции и т п Однако простои поиск по базе редко позволяет установить субстратную специфичность белка или найти важные функциональные сайты белка

Настоящая диссертация посвящена описанию алгоритмов и анализу результатов работы пакета программ, позволяющего на основании последовательностей родственных белков, различающихся в деталях своей функциональности (специфичности), предсказывать аминокислотные остатки, отвечающие за эти различия, предсказывать специфичность новых белков семейства, идентифицировать функциональные сайты (активный центр, поверхность взаимодействия с малыми молекулами, нуклеиновыми кислотами или другими белками) в структурах белков К моменту начала настоящего исследования было опубликовано лишь небольшое число подходов к решению этой задачи, и все они использовали дополнительную информацию об изучаемом белке, а значит, были не универсальны За прошедшие два юда объем литературы - как новых алгоритмов, так и сделанных с их помощью предсказаний, в некоторых случаях подтвержденных экспериментально, - многократно возрос, что говорит о возросшем интересе и очевидной практической ценности данного направчения

Следует отметить, что описанные в настоящей работе методы были одними из первых, опубликованных по данной теме, и первыми свободно доступными через Интернет средствами для решения поставленной задачи

Цель в задачи исследования

Целью настоящего исследования являлось предсказание участков специфического взаимодействия, а также функционально значимых участков белков методами современной биоинформатики Была произведена разработка, программная реализация, тестирование и применение группы алгоритмов для поиска позиций, определяющих специфичность (специфичностъ-детерминирующих позиций, СДП) белков в больших белковых семействах, а также использования предсказанных СДП для предсказания специфичности и определения функциональных сайтов белков

В задачи работы входило

• Разработка метода для поиска СДП

• Реализация разработанного метода в виде алгоритма и программного продукта, как в виде консольного приложения, так и виде веб-сервера, удобного для использования биологом-неспециалистом (SDPpred)

• Тестирование разработанного метода на хорошо изученных белковых семействах (бактериальные факторы транскрипции семейства Lacl)

• Предсказание СДП для нескольких новых семейств различной природы мембранные транспортеры MIP, НАД- и НАДФ-зависимые изоцитрат- и изопропилмалатдегидрогеназы, бактеральные факторы трансляции RF1 и RF2

• Создание метода для предсказания специфичности экспериментально не охарактеризованных белков и реализация этого алгоритма в виде веб-сервера (SDPpred-proüle)

• Создание метода для предсказания активных, субстрат-распознающих и других функциональных сайтов в структурах белков с помощью СДП и консервативных позиций (SDPsite)

• Реализация метода SDPsite в виде доступного через Интернет веб-сервера

• Тестирование метода SDPsite на структурах бетков с известными активными сайтами и предсказание функциональных сайтов для структур белков с плохо охарактеризованной функцией

Новизна работы

В настоящей работе описаны новые математические методы анализа аминокислотных последовательностей В частности, разработан статистический метод, использующий матрицы аминокислотных замен для приближения наблюдаемых частот к вероятностям, а также автоматическая статистическая процедура }становки порога

отсечения На основании этих, а также других, ранее известных статистических методов был создан алгоритм, впервые позволяющий предсказывать позиции, определяющие специфичность белка, с помощью полностью автоматической процедуры Этот шп оритм был реализован в виде веб-сервера, который был первым публично доступным через Интернет ресурсом, решающим данную задачу Описанная методика поиска активного сайта и проведенный с ее помощью анализ также являются новыми

Практическая ценность

В настоящей диссертации описан как новый метод для предсказания позиций, определяющих специфичность белков, так и его применение к большому количеству белковых семейств с различными биологическими функциями Во всех случаях полученные предсказания хорошо согласуются с имеющимися экспериментальными и структурными данными В некоторых случаях нам удалось предсказать новые, ранее неохарактеризованные позиции, которые, однако, могут иметь большое значение для функции белка Например, для бактериальных факторов терминации трансляции RF1/2 мы идентифицировали второй кластер специфических позиций и предложили новую модель связывания с комплексом терминации С другой стороны, описанные в настоящей работе веб-ресурсы предлагают простой интерфейс для дальнейших исследований

Апробация работы

Материалы исследований по теме диссертации были представлены на международных конференциях BGRS'2002 (Biomformatics of Genome Regulation and Structure, Новосибирск, Россия), RECOMB'2003 (Research in Computational Molecular Biology, Берлин, Германия), MCCMB'2003 (Moscow Conference on Computational Molecular Biology, Москва, Россия), XI Ломоносовская конференция студентов, аспирантов и молодых ученых (Москва, Россия), BGRS'2004 (Biomformatics of Genome Regulation and Structure, Новосибирск, Россия), ISMB/ECCB'2004 (Intellectual Systems for Molecular Biology/European Conference on Computational Biology, Глазго, Великобритания), MCCMB'2005 (Moscow Conference on Computational Molecular Biology, Москва, Россия), ECCB'2005 (European Conference on Computational Biology, Мадрид, Испания), Keystone Symposium on Multi-Protem Complexes Involved in Cell Regulation'2006 (Кембридж, Великобритания), а также на научных семинарах на Факультете биоинженерии и биоинформатики МГУ, УНЦ «Биоинформатика» ИППИ РАН, Институте Молекулярной биочогии РАН им В А Энгельгардта и в Structural and Computational Biology Unit, EMBL-Heidelberg

Объем и структура диссертации

Диссертационная работа изложена на 126 страницах и состоит из пяти глав и выводов Глава 1 включает введение и обзор литературы по теме диссертации Глава 2 содержит описание программ и алгоритмов - как известных, так и оригинальных, разработанных специально для решения задачи, поставленной в диссертации Главы 3 и 4 содержат описание процедуры и результатов тестирования новых методов, описание реализованного на их основе программного обеспечения, а также новые результаты, полученные при исследовании семейств белков с разной функциональностью с помощью этих алгоритмов В Главе 5 предложенные методы обсуждаются в контексте накопленных литературных данных, их эффективность сравнивается с эффективностью алгоритмов других авторов Список литературы, приведенный в конце диссертации, содержит 124 наименования Работа содержит 50 рисунков и 12 таблиц

Содержание работы

Глава 1. Введепие

Содержит постановку задач и их мотивировку, а также аналитический обзор современной литературы по рассмотренным в диссертации проблемам

Глава 2. Методы

Данная глава содержи г описание основных методов, алгоритмов и программ, использованных в работе Здесь описаны как ранее известные, так и новые, разработанные нами специально для решения задач, поставленных в настоящей диссертации, методы

В начале главы вводятся определения Группой специфичности называется группа белков, отличающаяся от всех остальных белков выравнивания по каким-либо биологическим свойствам, например, группа белков, взаимодействующая с лигандами одного типа Одно белковое семейство может содержать несколько групп специфичности Такие семейства являются объектом для дальнейших предсказаний СДП - позиция в выравнивании белкового семейства, консервативная внутри групп специфичности, но не консервативная при сравнении разных групп специфичности (см рис 1)

В работе были использованы также следующие допущения во-первых, при анализе выравниваний столбцы выравнивания считаются независимыми, т е предполагается, что значимость аминокислотного остатка для функции и/или специфичности белка определяется аминокислотным составом соответствующего столбца выравнивания, и не зависит от его окружения, а во-вторых, не рассматривались группы специфичности,

содержащие менее 3-х аминокислотных последовательностей. Не рассматривались также столбцы выравнивания, содержащие делении более чем в 30% последовательностей.

ILL Д

ilm:

ILL

ТШ

ъш

IVHG

^ML. V.

SSL.

ML. QG G. TGK. .

|IS GVü^AAIUjVLÄ^K^,

Группа специфичности 2

СДП СДП? Абсолютно Неинформативная консервативная позиция позиция

Рис. I. Аминокислотный состав первой из отмеченных позиций хорошо коррелирует с разбиением выравнивания на группы специфичности, поэтому она обозначена СДП (позиция, определяющая специфичность). Абсолютно консервативные (третья из отмеченных) и абсолютно неконсервативныс (четвертая) позиции не являются детерминантами специфичности.

ЯОРргей (КиНпта е1 а1., 2004). В этом разделе представлен метод $ПРргсс1 - новый МЙххц для предсказания позиций, определяющих специфичность (СДП). В качестве входных данных для предсказания используется выравнивание аминокислотных последовательностей, в котором белки «вручную» разделены на группы специфичности. Для каждой позиции выравнивания вычисляется ее взаимная информация - мера того, является ли эта позиции СДП:

по всем группам специфичности

по всем ам инок и слотам

fp(a,i) - частота аминокислоты а в позициир в группе /, /Да) - частота аминокислоты и в позициир во всей выборке, /(') _ размер (доля) группы L Поскольку в реальных биологических данных белки одной специфичности часто находятся на одной ветви филогенетического дерева и поэтому могут иметь больше

совпадающих позиций, чем в среднем по выравниванию, производится поправка с использованием случайных перемешиваний и линейной регрессии Сначала для каждой колонки выравнивания (позиции) многократно (от 1 ООО до 10 ООО раз) производится перемешивание остатков с сохранением состава колонки и размера групп, и для каждой колонки вычисляется среднее значение (if} и среднеквадратичное отклонение сг (/*'') взаимной информации перемешанной котонки После этот одновременно для всех позиций производится линейная регрессия величин I и путем минимизации среднеквадратичного отклонения

я = £,(', -(Т))2 = ™ (2 2)

Таким образом, вычисляется среднее значение и среднеквадратичное отклонение ожидаемого значения взаимной информации для каждой колонки (I?) = a(l?) + p, o{l?)=aa{lt)

Наконец, вычисляется статистическая значимость для каждой позиции

I -(Г") z (2 4)

Для определения количества СДП среди наиболее значимых позиции применяется оригинальная процедура, основанная на оценке Бернулли (Vinogradov and Mironov, 2002) Сначала все позиции упорядочиваются по убыванию Zp Далее выбирается такое значение к*, для которого получение к* значений Z, не меньших Z(i>), наименее вероятно, при условии нормального распределения Z (те выбирается наименее вероятный в предположении случайной выборки набор позиций, «тяжелый хвост», Р -вероятность данного набора позиций)

к* = arg mint /> {существует по крайней мере к наблюдений Z > Z(1)} =

(2 5)

■Я Р' ' |.

i-i-t+i

arg mm J 1 - L

где

p = p{z>z(k>) = ] Lexpf-Z^Z,

72л- Г ' (2 6)

<7 = 1 -р

Легко видеть, что 'РЬ~' Слагаемые этой суммы

могут быть очень малы по абсолютной величине Поэтому при вычислениях, для того,

чтобы избежать потери значимости, сначала вычисляются все слагаемые, потом из них формируется массив, он упорядочивается по возрастанию, и сложение производится начиная с наименьших по абсолютной величине слагаемых

Описанная процедура позволяет вылетать набор из к * СДП Вероятность

называется статистической значимостью набора из к*позиций

Предсказанные СДП могут быть использованы для предсказания специфичности других белков из того же семейства, чья специфичность неизвестна Метод предсказания специфичности с помощью СДП-профилей описан в (Какпша е* а!., 2004) и получил название 80Рргес1-ргоГ11е В этой части алгоритма в качестве входных данных используется то же выравнивание, что и в предыдущей, а также выравненные с ним последовательности белков, специфичность которых требуется предсказать

Сначала для каждой из исходных групп специфичности ! строится матрица позиционных весов (профиль) Цм», (а, р) а (а - все аминокислоты, р - все СДП)

этой процедуры от стандартных методов построения профилей состоит в том, что здесь учитываются не все позиции выравнивания, а только СДП

Далее для белка с неизвестной специфичностью вычисляется N весов (N -количество исходных групп специфичности)

где сумма берется по всем СДП, а а - аминокислота, находящаяся в позиции р в белке с неизвестной специфичностью Этот белок полагается имеющим ту же специфичность, что и группа, доставляющая максимум }У1 Для проверки того, что это предсказание не обусловлено только гомологиеи полных последовательностей белков, вычисляется его статистическая значимость Для каждой группы специфичности многократно (1 ООО раз) строится случайный профиль (основанный не на СДП, а на случайных позициях выравнивания, взятых в том же количестве) и аналогично вычисляются случайные веса по этим профилям Вычисляется величина

Р* = /"{существует по крайней мере к наблюдений 2 > }, доставляющая этот минимум,

Г, =£>,(«,/>), 0 = 1, ,И), (28)

р

IV, -lw",ä)

которая принимает положительные значения, если предсказание специфичности по СДП более значимо, чем предсказание на основе сходства последовательностей в целом, и близка к нулю в противном случае В случае нулевых или отрицательных значений, даже для профиля, доставляющего максимальный вес, предсказание специфичности следует считать сомнительным В случае больших положительных значений предсказание является статистически значимым

Алгоритм предсказания специфичности с помощью СДП-профилей был назван SDPpred-profile и реализован как часть веб-сервера SDPpred, доступного по адресу http //bioinf fbb msu ru/SDPpred

SDPsite (Калинина и соавт., 2007). Другой новый метод, представленный в диссертации, - SDPsite, алгоритм для поиска функционально важных сайтов в структуре белка с использованием СДП Метод предсказания функциональных сайтов состоит из трех частей (1) предсказание СДП, как в SDPpred, (2) предсказание консервативных позиций (КП), (3) картирование предсказанных позиций (СДП и КП) на структуру и их кластеризация

Для предсказания КП испотьзована мера консервативности Сандера-Шнайдера (Sander and Schneider, 1991) консервативность позиции р вычисляется по формуле

С, >4,(/>),*>)), (2 10)

л I )>,

где N - количество последовательностей в выравнивании, d(sl, ) - расстояние между

, % идентичности , \ последовательностями s, и ,у7, равное 1--—-, sk\р) - аминокислота,

стоящая в последовательности st в позиции р, M{a,ß) - матрица замен аминокислот, в данном случае использовалась матрица BLOSUM62 (Hemkoff and Hemkoff, 1992), а Я

NN

является нормировочным множителем и вычисляется по формуле Я = ,s ) Для

I j>i

каждого значения Ср вычисляется его статистическая значимость Для этого мы вводим фоновое распределение С как консервативность колонок, составленных из случайных позиций каждой последовательности выравнивания Таким образом, мы вычисляем для каждого Ср 10 ООО случайных значений консервативности С'^, а затем вычисляем статистическую значимость

_rand ^

Z>= (2П)

Далее используется такая же процедура выбора числа значимых позиций, как и при предсказании СДП

Следующий шаг - пространственная кластеризация предсказанных СДП и КП Для этого рассматривается структура одного из белков семейства, на ней выбираются остатки, соответствующие СДП и КП, и выбирается их плотный кластер по алгоритму вложенных кластеров, основанному на плотности графа (Mirkin and Muchnik, 2002) Вложенные кластеры строятся следующим образом Сначала рассматриваются все вершины графа (в нашем случае они соответствуют множеству всех СДП и КП на пространственной

структуре) - кластер Н0 Для каждой вершины ; вычисляется ее вес по формуле

j

где j пробегает множество всех остальных вершин Я0, а т0 - вес ребра между вершинами ; и j , вычисляемый по формуче

I—,если d„ < D

d.j , (2 13)

0, если dv > D

где du - евклидово расстояние между ближайшими атомами аминокислот, соответствующих вершинам г и j, R = 5 А - среднее расстояние между центрами атомов, при котором атомы находятся в контакте, D = 15 А - расстояние, на которое распространяется влияние атома R и D - константы, значения которых были подобраны из эмпирических и эвристических соображений Весовой коэффициент Л, =05, если вершина i соответствует КП, и 1 в противном случае Таким образом, значимость КП искусственно понижается Это сделано для того, чтобы алгоритм не выбирал геометрическое ядро (группу консервативных остатков, необходимых для образования правильной пространственной структуры белка) в качестве значимого кластера Далее находится множество вершин F0 с Я0, для которых значение /I минимально и равно /i™" Строится кластер Я, = Я0 \ F0 Эта процедура повторяется, пока на очередном шаге построенный кластер не окажется пустым Таким образом будет построена серия вложенных кластеров Н0 г> Я, z> Ны э 0 В качестве самого значимого кластера выбираем кластер п, для которого = max{//™ | к = 0, ,N}

Алгоритм предсказания функционального сайта был назван SDPsite и реализован в виде веб-сервера, доступного по адресу http //bioinf fbb msu ru/SDPsite

Для массового применения метода SDPsite необходим способ автоматического разделения последовательностей выравнивания на группы специфичности Для этого предложен метод, основанный на структуре филогенетического дерева Рассматривался каждый набор группировок, получаемых рассечением дерева на определенном расстоянии от корня При этом группы, содержащие меньше трех последовательностей, не рассматривались Для каждой группировки находятся СДП, и вычисляется статистическая значимость найденного набора СДП Р * по формулам (2 5-2 6) Лучшим считался тот набор, для которого Р * минимальна, т е для которого получен наименее вероятный набор СДП Для того, чтобы учесть различный размер получающихся групп, проводилась статистическая корректировка значений Z

Глава 3. Предсказание позиций, определяющих специфичность (СДП), тестирование и применение метода

В данной главе представлены результаты тестирования и применения метода SDPpred для предсказания СДП Задача программы, написанной на его основе, состоит в том, чтобы во множественном выравнивании белков, разделенном на группы специфичности, найти позиции, консервативные внутри таких групп, но различающиеся между группами (СДП) Для белков, не вошедших ни в одну группу специфичности, после предсказания СДП возможно предсказание специфичности на основе СДП Алгоритм, решающий эту задачу, изложен в главе 2 Этот метод был назван SDPpred Программа, реализующая SDPpred, состоит из двух частей предсказание СДП и предсказание специфичности белков, не входивших в исходную выборку, на основе СДП По сравнению с ранее опубликованными методами, SDPpred включает в себя две новых важных процедуры автоматический выбор порога в списке значимых позиций с оценкой статистической значимости полученного набора СДП и улучшенную статистику частот аминокислот Алгоритм предсказания специфичности новых белков также является новым Программа и веб-сервер реализованы на языке Java

С помощью этого метода мы исследовали детерминанты специфичности в семействах белков, принадлежащих к разным функциональным классам факторы транскрипции (Kalinina et al., 2004), мембранные транспортеры (Kalinina et aL, 2003), (Kalinina et aL, 2004), факторы трансляции (Орагша et aL, 2005), аннексины (Rakhmaninova et aL, 2004), белки с ферментативной активностью (Kalinina and Gelfand, 2006)

Результаты предсказаний с помощью SDPpred показаны ira рис. 2. Видно, что во всех случаях С'ДП располагаются в областях белка, вовлеченных в специфические взаимодействия; с эффектором и ДНК (для факторов транскрипции семейства Lacl), с транспортируемым лигаНДОЫ (для мембранных каналов семейства МП'), с субстратом и кофактором (для семейства изоцитрат- и изопропилмалатдегадрогеназ), с мРНК (для факторов терминацни трансляции KF1/2), на поверхности контакта с мембраной (для аннексинов)

'X Î Г Я

{ 'V ■ J '

ïmm

Бактериальные факторы транскрипции семейства Lacl. Черным показаны эффектор и ДНК.

Бактериальные транспортеры семейства MIP, Черным показаны транспортируемые молекулы (глицерин).

!

' С > V

t

Бактериальные факторы терм и нации трансляции RFI/2. СДП сосредоточены в области контакта с мРНК,

Аннексины. Черным показаны ионы кальция, расположенные на поверхности контакта с мембраной.

Изоцитрат- и

изопропилмалатдегидрогеназы. Черным отмечен субстрат, темно-серым — кофактор фермента.

Рис. 2. Предсказанные СДП ДЛЯ различных белковьге семейств. СДП показаны серым, в шарнирной модели. Основная цепь белка показана белым, в ленточной модели. В случаях, когда белок активен в форме гомоолигомера, одна субъединица показана в оттенках серого, а остальные - более тонкими линиями и белым.

Для семейства Lacl имеются подробные экспериментальные данные о влиянии замены каждого остатка на функцию белка (Suckow, et al, 1996) В соответствие с этими данными все остатки белка можно разделить на 5 групп в зависимости от значимости этого остатка для функции Доля СДП в группах наиболее значимых для функции остатков существенно повышена, что говорит о хорошем согласии предсказаний метода SDPpred с экспериментальными данными

Кроме того, для этого семейства существуют обширные данные о специфичности различных белков, полученные методами сравнительной геномики (Laikova, 2003) Весь набор белков распадается на «макрогруппы», в каждую из которых входит несколько групп регуляторов, имеющих одинаковую специфичность к эффектору, но связывающих разный оператор На этом наборе SDPpred-profile был протестирован методом слепого тестирования Несмотря на то, что на филогенетическом дереве группы из одной макрогруппы расположены так, что их специфичность не может быть предсказана верно исходя из специфичности ближайшего гомолога, с помощью SDPpred-profile в ряде случаев удается правильно восстановить специфичность белков

В некоторых случаях наблюдаемое расположение СДП позволило сделать новые интересные выводы Например, для семейств, белки которых активны как гомоолигомеры (среди рассмотренных такими оказались Lacl, MIP, изоцитрат- и изопропилмалатдегидрогеназы), значительная доля предсказанных СДП (до 35%) расположена на поверхности контакта субъединиц олигомерного комплекса В некоторых случаях (как это было продемонстрировано для семейства MIP) СДП на поверхности межсубъединичного контакта образуют плотные пространственные кластеры, которые могут служить механизмом для предотвращения образования химерных комплексов (так как белки разной специфичности из одного семейства могут присутствовать в клетке одновременно) Другим объяснением такого большого количества СДП на поверхности межсубъединичного контакта может быть то, что часто активный центр бечка, осуществляющий в числе прочего специфическое распознавание субстрата, расположен в этой области (например, для изоцитрат- и изопропилмалатдегидрогеназ)

Для семейства бактериальных факторов терминации трансляции RF1/2 предсказание второго кластера СДП (помимо СДП, совпадающих с известными ранее детерминантами специфичности) позвочило предложить модель двухступенчатого связывания фактора со стоп-кодоном, аналогичную модели для факторов терминации трансляции эукариот, уже имеющей экспериментальное подтверждение Семейство изоцитрат- и изопропилмалатдегидрогеназ можно разделить на четыре группы специфичности, из которых три специфичиы к изоцитрату, одна к изопропилмалату, но из тех же четырех

групп две специфичны к НАД, и две - к НАДФ Такое неравномерное распределение позволило нам выделить четыре СДП, которые отвечают за специфичность к субсграту, однако соответствующие им аминокислотные остатки контактируют с кофактором во всех известных структурах белков рассматриваемого семейства Учитывая взаимное расположение субстрата и кофактора, в этом случае можно предполагать двухступенчатое связывание субстрата, за которым следует связывание кофактора

Еще одна интересная особенность предсказанных СДП - их склонность кластеризоваться вместе с консервативными остатками в функционально важных областях белка - была использована для создания инструмента для предсказания функциональных сайтов в структуре белка SDPsite

Глава 4. Предсказание функциональных сайтов, тестирование и применение метода

В главе 4 описан метод поиска функционального сайта, использующий детерминанты специфичности, названный SDPsite (Калинина и соавт., 2007) Задача SDPsite состоит в том, чтобы в выравнивании белкового семейства найти СДП (при эгом, в отличие от SDPpred, разделение на группы специфичности не задано, а находится автоматически), консервативные позиции (КП), спроецировать их на структуру одного белка из этого семейства и найти лучший пространственный кластер, состоящий из СДП и КП

Алгоритм, реализованный в программе SDPsite, описан в главе 2 Программа состоит из нескольких относительно независимых модулей предсказание СДП, предсказание КП, проекция сформированных списков позиций на структуру и нахождение наилучшего кластера Веб-сервер для данного алгоритма реализован таким образом, что эти модули можно запускать независимо Он свободно доступен по адресу http //biomf fbb msu ru/SDPsite Программа и веб-сервер реализованы на языке Java

SDPsite был протестирован на примере хорошо изученного семейства бактериальных факторов транскрипции LacT, а также на большом количестве семейств доменов из базы данных консервативных доменов (Conservative Domain Database, CDD) (Калинина и соавт., 2007) Было проведено сравнение результатов метода SDPsite с результатами работы других методов предсказания функциональных сайтов, изложенных в (Soyer and Goldstein, 2004) После этого мы применили SDPsite к большому количеству семейств Pfam, содержащих белки, пространственная структура которых была разрешена в рамках Проекта по структурной геномике (Chandoma and Brenner, 2006)

Тестирование SDPsitc на семействе Lac! показало хорошее согласие предсказаний с экспериментальными данными Suckow и соавт. (Suckow et al., 1996). При ЭТОМ автоматическая группировка белков по специфичности практически совпадает с группировкой на основании данных анализа методами сравнительной геномики (Laikova et al. 2003) и практически не ухудшает предсказаний. Предсказанные СДП, КП и два лучших кластера показаны на рис. 3. Видно, что оба лучших кластера находятся в функционально важных областях домене, связывающем оператор, и кармане, связывающем эффектор,

Автоматическая группировка I рушшровка по (Laikova, 2003)

Рис, 3. Предсказания ЙЭРкЙе на структуре РигР из Е соИ {идентификатор РОВ 1МЬ). Эффектор и ДНК показаны черным. СДП показаны светло-серым. КП показаны темно-серым Лучший кластер показан большими шарами. Второй лучший кластер показан малыми шарами; Вторая субьединица димера для наглядности целиком показана белым

В сравнении с другими методами результаты ЗОРэкс показывают отношение Чувствительности к уровню пере предсказал и я на уровне лучших результатов для других методов. При этом чувствительность метода не очень высока, однако перепредсказание крайне низкое. Это соответствует исходной задаче, которая ставилась при проектировании ЭОРз^е: гю возможности понизить уровень перепредсказания с целью давать небольшое число возможных кандидатов для экспериментального исследования, но с большой долей уверенности.

U ' Г й; У з ;}

При анализе базы данных CDD (Conserved Domain Database), мы рассмотрели 68 доменов Для этих доменов описаны функционально важные аминокислотные остатки (поле «особенности»), а соответствующие выравнивания содержат хотя бы один белок, для которого известна пространственная структура Только позиции, помеченные как «особенности», считались функционально значимыми и использовались в качестве контроля при оценке эффективности метода SDPsite Это дает нижнюю границу оценки качества метода, поскольку некоторые остатки, указанные среди «особенностей», могут также быть важны, а среди указанных есть такие, которые не удовлетворяют интуитивному определению функционального сайта, например, сайты модификации аминокислотных остатков (фосфоршгарования, гликозилирования и т п ) Тем самым, истинная чувствительность метода не ниже, а перепредсказание не выше, чем оцененные таким образом Несмотря на это, для КП и кластеров, образованных наиболее близко лежащими в структуре СДП и КП, отношение чувствительности к уровню перепредсказания, в среднем существенно лучше, чем для случайного выбора позиций Для СДП это не совсем очевидно Возможно, это связано с тем, что не все рассмотренные семейства на самом деле содержат группы различной специфичности, или с тем, что большинство аннотированных «особенностей» по смыслу должно быть консервативно во всем семействе КП показывают достаточно хорошее отношение чувствительности к перепредсказанию, однако кластеры СДП и КП в среднем показывают самую лучшую чувствительность Средняя чувствительность (отношение функционально важных остатков среди предсказанных к общему чисчу функционально важных остатков) для кластеров равна 0 353, и для 5 семейств чувствительность равна 1, а для КП средняя чувствительность 0 2998, и количество семейств с чувствительностью 1 равно 3

По состоянию на середину ноября 2006 г было секвенировано 387 полных бактериальных, 44 полных эукариотических и 29 полных геномов археобактерий, еще 1685 таких проектов находятся на стадии исполнения (по данным базы данных GOLD (Liolios, et al, 2006)) Предварительная аннотация компьютерными методами стала в этих проектах частью рутинной процедуры Кроме постедовагельности, крайне важным для понимания функции белка является знание его пространственной структуры В 2000 г Начались исследования в рамках международного Проекта по структурной геномике (Chandoma and Brenner, 2006), целью которого является расшифровка представительного набора пространственных структур белков различных изученных организмов Основные этапы этого проекта следующие (1) организовать все известные последовательности белков в семейства, (2) выбрать в качестве мишени одного (несколько) представителя

семейства, (3) расшифровать пространственную структуру мишени с помощью рентгеноструктурного анализа или ЯМР, и (4) построить модели пространственной структуры других представителей семейства В результате реализации этого проекта будут получены структуры многих белков, для которых не только локализация их активных центров и/или других функциональных сайтов, но часто и сама функция не известны, и, более того, они не имеют более подробно изученных гомологов В таких случаях часто применяют различные вычислительные методы поиска функциональных сайтов

Для применения ЯОРзЦе были выбраны структуры белков, полученные в ходе реализации Проекта по структурной геномике, потому что они часто не сопровождаются никакой дополнительной информацией не известно положение функционального сайта, связываемый лиганд, иногда не известна даже функция белка Именно в таком случае применение БОРвйе может давать интересные новые результаты

Из базы данных РГат было выбрано 124 семейства, которые удовлетворяли следующим критериям во-первых, в семействе должен быть домен белка, структура которого расшифрована в рамках Проекта по структурной геномике, и во-вторых, для белков, чьи домены входят в семейство, не должно быть структур, определенных не в рамках Проекта Результаты предсказаний оценивались по следующей схеме Если предсказанные остатки (СДП+КП) составляли не очень большую долю от всех остатков белка (до 20%) и предсказанный лучший кластер находится в потенциальном кармане (определяемом с помощью визуального анализа структуры), на поверхности белка или на поверхности контакта субъединиц, предсказание помечалось как «хорошее» Если предсказанные остатки составляли большую долю остатков белка (>20%), однако лучший кластер находился в потенциальном кармане или на поверхности, предсказание помечалось как «удовлетворительное» В остальных случаях предсказание помечалось как «плохое» Всего было сделано 45 «хороших», 43 «удовлетворительных» и 36 «плохих» предсказаний, т е примерно 70% предсказаний можно считать по меньшей мере удовлетворительными

Среди хороших предсказаний выделяются несколько типов Во-первых, это предсказанные возможные активные центры Мы предполагали, что предсказанный кластер может быть активным центром, если он находился в большом кармане белка или в большом кармане на поверхности контакта между двумя субъединицами белка, и его ядро образовывали консервативные остатки, а периферию - СДП Эти предсказания проиллюстрированы на рис 4

PFÜÖ492/PF076Ü3: CobW/HypB/Ureö. ГГФачьг, вовлеченные в биосинтез кобаламина, иикель-связывающие. Черным выделены функционально важные участки во данным. (KM, et al., 2004)

PF0364I: E,ysine_decarbox. Гипотетическая люиновая декарбоксилаза. В этом случае; активный центр, скорее всего, находится между двумя докеками.

Рис. 4. Примеры предсказанных гипотетических активных центров, СДП показа]! ы светло-серым, КП—темно-серым, лучший кластер показан шарами. Предположительная локализация активного центра ноказано овалом.

PF028I1: PHP domain. Гипотетическая фосфохтераза. Связанные ионы металла показаны черным.

PF03795: YCll-related domain. Функция неизвестна, возможно, фермент. Черным выделены остатки, предположительно Vчествующие в активном центре (Willis, el al., 2005).

Все остальные интересные предсказания можно разделить на два типа: кластеры, лежащие на поверхности контакта между двумя субъединицами (рис. 5) и кластеры неизвестного назначения на поверхности белка (рис, 6). Как было отмечено в главе 3, локализация СДП на поверхности контакта между субъединицами белкового комплекса, по-видимому, широко распространена и служит для правильной сборки комплекса и предотвращения образования химерных структур Кластеры неизвестного назначения на

поверхности могут также отмечать сайты белок-белкового взаимодействия, в гех случаях, когда комплекс не кристаллизован полностью (например, содержит неидентичные субъединицы, которые были удалены при очистке белка).

Рис. 5. РР01791; ОеоС, Семейство ОеоС/ЬасО, различные адолазы. Остатки на поверхности межсубьединичнога контакта выделены овалом. Обозначения как на рис. 4.

Рис. 6. PF02637: GatB/YqeY domain. Функция неизвестна, участвует в метаболизме тРНК. Обозначения как на ряс. 4.

Основная сложность при оценке методов для предсказания функциональных сайтов — отсутствие надежных контролен. В то время как в случае семейства Lac! имеются практически полные данные о влиянии мутаций разных остатков на функцию белка, для других семейств это не так. В настоящей работе было принято решение считать все Неописанные в исходных данных остатки не значимыми дли функции, а также не разделять различные типы функциональные, остатков, что может существенно занижать оценку качества предсказания. Несмотря на это, результаты предсказаний с помощью SDPsite достаточно хорошо согласуются с контрольными данными.

Глава 5. Обсуждение

В настоящей диссертации представлены два метода: SDPpred для предсказании детерминант специфичности на основании множественного выравнивания семейства и SDPsite для предсказания функционального сайта белков.

SDPpred использует ту же формулу для оценки значимости позиции что и алгоритм, описанный в (Mirny and Geifand. 2002). Однако d (Mirnv and Gelfand, 2002) не введено четкой процедуры выбора нужного количества значимых позиций - авторы предлагают выбирать позиции, которые имеют одновременно и высокую взаимную информацию и

высокий Z-score В нашей работе мы, напротив, предлагаем однозначную, автоматическую и статистически обоснованную процедуру выбора порога В результате предсказанные нами СДП для семейства LacI (рассмотренного в качестве тестового случая в (Mimy and Gelfand, 2002)), включают все 12 СДП, предсказанные в (Mirny and Gelfand, 2002), а также ряд других позиций, часть из которых имеет экспериментальное подтверждение значимости для специфичности, а часть находится в потенциальных функционально важных областях белка

Другие алгоритмические нововведения метода SDPpred позволяют учитывать сходство физико-химических свойств разных аминокислот и различия в эволюционном расстоянии между рассматриваемыми белками с помощью псевдоотсчетов, а также дают возможность использовать специальную статистику для трансмембранных сегментов

SDPsite основан на предпотожении, что в важных сайтах расположены кластеры статистически особенных позиций Отличие SDPsite от других подходов состоит в том, что кластеры, построенные этим методом, опираются, в первую очередь, на детерминанты специфичности, предсказанные аналогично SDPpred Приведенные рез> льтат м показывают, что это позволяет лучше выделить поверхности контакта с лигандом, не путая ее с консервативным геометрическим ядром белка, а также уменьшает время работы программы

SDPpred тоже можно сравнить с методами, описанными в (Soyer and Goldstein, 2004) В этом случае необходима априорная группировка исходных последовательностей по специфичности Группировку для семейства LacI можно получить из результатов анализа с помощью методов сравнительной геномики (Laikova, 2003) SDPpred предсказывает 27 позиций, чувствительность этого предсказания 0 2, уровень перепредсказания - 0 07 Отказавшись от значения порога, выбранного автоматически, мы можем построить кривую ROC аналогично (Soyer and Goldstein, 2004) (рис 7) Видно, что кривая ROC, соответствующая предсказаниям SDPpred (рис 7А) в области низких значений уровня перепредсказания (< 0 15) более выпукла, а значит, дает более надежные предсказания, чем метод, соответствующий лучшей из кривых из (Soyer and Goldstein, 2004) (рис 7В)

В SDPpred от пользователя требуется заранее разбить последовательности выравнивания на группы специфичности Это и недостаток, и достоинство данного алгоритма Часто у пользователя нет информации о специфичности разных белков интересующего его семейства В этом случае была бы полезна процедура автоматического деления на группы специфичности С другой стороны, ручное деление на группы специфичности может быть достоинством в случае, когда пользователь обладает информацией о специфичности белков изучаемого семейства, которая может не

соответствовать однозначно веткам дерева В таком случае можно получить новые интересные предсказания

В

Рис. 7. Кривые ROC для позиций, предсказанных SDPpred (А) и из (Soyer and Goldstein, 2004) (В) для семейства LacI По вертикальной оси - специфичность, по горизонтальной - уровень перепредсказания

В трех опубликованных методах, решающих сходную задачу, вводится процедура автоматической группировки в методе эволюционного следа (ET), в методе гигантской компоненты (Donald and Shakhnovich, 2005), и в методе FunShift (Abhiman and Sonnhammer, 2005) Мы сравнили эти процедуры с алгоритмом автоматической группировки, реализованным в SDPsite Поскольку в методе ET испотьзуется не одна, а непрерывное множество группировок, мы исключили его из рассмотрения

В алгоритме FunShift использован метод разделения выравнивания на подгруппы Bete (Sjolander, 1998) Этот метод использует смеси Дирихле и относительную энтропию для построения дерева по выравниванию, а затем принцип минимальной стоимости кодирования для разделения этого дерева на поддеревья Метод гигантской компоненты (Donald and Shakhnovich, 2005) выделяет кластеры на основании попарного сходства последовательностей Если последовательность имеет процент идентичных позиций выше порога с хотя бы одной последовательностью из кластера, она тоже попадает в этот кластер Результаты, полученные с помощью разных методов, показаны в табл I Реализованный в SDPsite метод автоматической группировки дает результаты, сравнимые с результатами алгоритма Bete, и лучшие, чем подход из (Donald and Shakhnovich, 2005) В целом, несмотря на всю разность подходов, результаты, полученные с помощью разных методов, хорошо согласуются

□ D1 0 2 DJ Dt D5 Об ОТ DJB OS

5« 51 С2 03 »4 »S 5« от (4 «, 1С

Табл. I. Результаты работы разных методов автоматической группировки на примере семейства Lacl Для метода гигантской компоненты рассмотрены две группировки соответствующая размеру наибольшего кластера 62 последовательности (ближайший к средней точке, порог идентичности, порог 30%) и 29 последовательностей (наибольший перепад размера максимального кластера, порог 39%)_

Группы специфичности, выделенные в результате анализа методами сравнительной еномики (Laikovs, 2003)_

Автоматичекая группировка, реализованная в SDPsite

Bete (Sjolander, 1998) (указаны уникальные идентификаторы групп)

Метод гигантской компоненты (Donald and Shakhnovich, 2005), порог 30%

Метод гигантской компоненты (Donald and Shakhnovich, 2005), порог 39%

СсрА

Группа 1

N238

Кластеры 1,2

Кластер 4

CytR

Группа 2

N191

Кластер 3

Кластер 5

GntR

Группа 3

N233

Кластер 5

Кластер 8

FraR

ScrR GalR

Группа 4

N230, N225

N235

Кластер 6

Кластер 9, 10

Кластер 10

Группа 5

N229

Кластер 4

Кластеры б, 7,11,12

MalR

RbsR(PP)

Группа 6

N236

RbsR(EC) PurR

Группа 7

N212

Кластер 3

Группа 8

Кластер 1

Кластеры 1,2

N237

Кластер 1

Выводы

1 Разработаны новые подходы статистического анализа последовательностей аминокислот в белках На их основе создан и реализован метод SDPpred для предсказания позиций белка, отвечающих за его специфические взаимодействия Создан веб-сервер, реализующий метод SDPpred, свободно доступный через Интернет по адресу http //bioinf fbb msu ru/SDPpred Тестирование метода на примере семейства бактериальных факторов транскрипции Lacl показало, что позиции, предсказанные с помощью SDPpred, хорошо согласуются с экспериментальными данными о значимости различных остатков для функции белка, и качество предсказания превосходит существующие методы

2 Метод SDPpred применен для анализа белковых семейств с различными функциями Получены результаты, позволяющие сделать новые предположения о функциональности бечка и предложить новые гипотезы о молекулярных механизмах

а Для семейства бактериальных факторов терминации трансляции предсказан новый кластер позиций, отвечающих за специфичность узнавания стоп-кодона Предложена модель двухступенчатого связывания фактора с мРНК b Для семейства НАД- и НАДФ-зависимых изоцитрат- и

изопропилмалатдегидрогеназ определены не исследованные ранее позиции,

расположенные в субстрат-связывающем кармане и предположительно определяющие специфичность ферментов с Для семейства мембранных транспортеров М1Р на поверхности межсубъединичного контакта определены позиции, отвечающие за специфическое взаимодействие между субъединицами и образующие пространственные кластеры («застежки») Предложена модель, в которой эти позиции обеспечивают образование гомотетрамеров и отсутствие химерных комплексов

3 Разработан и реализован метод SDPsite для предсказания функционально важных сайтов в структуре белка Создан веб-сервер, реализующий метод SDPsite, свободно доступный через Интернет по адресу http //bioinf fbb msu ru/SDPsite Тестирование метода SDPsite на большом количестве семейств белков с известными функциями показало, что предсказания хорошо согласуются с экспериментальными данными о положении функционально важных остатков белка Полученные результаты демонстрируют крайне низкий уровень перепредсказания (ложно предсказанных позиций) и высокую специфичность Таким образом, предсказания SDPsite дают надежный материал для экспериментальной проверки

4 Разработан новый подход для автомагического разделения белкового семейства на группы белков с одинаковой специфичностью, включенный в алгоритм SDPsite Его тестирование показало, что получаемое с его помощью разделение хорошо согласуется с реальным (полученным на основе литературных данных и анализа с помощью методов сравнительной геномики) и лучше разделений, получаемых с помощью других опубликованных аналогичных процедур

5 SDPsite применен для анализа большого количества структур плохо изученных белковых семейств Получен материал для целенаправленного экспериментального исследования активных центров ферментов, сайтов связывания лигандов и участков белок-белкового взаимодействия в этих семействах

Автор выражает глубокую благодарность к.б.н. Рахманиновой А.Б. и проф. Миронову А.А. за поддержку и помощь в разработке алгоритмов и научные консультации.

Список работ, опубликованных по теме диссертации

Статьи в научных журналах:

1 Kalmina OV, Makeev VJ, Sutormm RA, Gelfand MS, Rakhmanmova AB (2003) The channel in transporters is formed by residues that are rare in transmembrane helices In Silico Biol 3(1-2) 197-204

2 Kalinina OV, Mironov AA, Gelfand MS, Rakhmanmova AB (2004) Automated selection of positions determining functional specificity of proteins by comparative analysis of orthologous groups in protein families Protein Sci 13(2) 443-56

3 Kahmna OV, Gelfand MS, Mironov AA, Rakhmanmova AB (2003) Ammo acid residues forming specific contacts between subumts m tetramers of the membrane channel GlpF Biophysics (Moscow) Vol 48, Suppl 1,141-145

4 Kahmna OV, Novichkov PS, Mironov AA, Gelfand MS, Rakhmanmova AB (2004) SDPpred a tool for prediction of ammo acid residues that determine differences in functional specificity of homologous proteins Nucl Acids Res 32(Web Server issue) W424-8

5 Rakhmanmova AB, Kalmina OV, Mmin AA (2004) Discriminative sites in the conserved core of various annexin subfamilies of vertebrates Annexms 1(2) 137-142

6 Opanna NJ, Kahmna OV, Gelfand MS, Kisselev LL (2005) Common and specific ammo acid residues m the prokaryotic polypeptide release factors RF1 and RF2 possible functional implications Nucleic Acids Res 33(16) 5226-34

7 Kahmna OV, Gelfand MS (2006) Amino acid residues that determine functional specificity of NADP- and NAD-dependent isocitrate and isopropylmalate dehydrogenases Proteins 64(4) 1001-9

8 Permina EA, Kazakov AE, Kalinina OV, Gelfand MS (2006) Comparative genomics of regulation of heavy metal resistance in Eubactena BMC Microbiol 6 49

9 Калинина О В , Расселл Р Ь , Рахманинова А Б , Гельфанд М С (2007) Вычислительный метод для предсказания функциональных сайтов белка с использованием детерминант специфичности Молекулярная биология 41(1) 137147

10 Devos D, Kahmna ОV, Russell R В Harry Potter and the Structural Biologist's (Key)stone Genome Biology 7(12) 333

Тезисы международных конференций:

1 Kalinina OV, Makeev VJu, Sutormm RA, Gelfand MS, Rakhmanmova AB Rare residues form the channel in transmembrane transporters Proceedings of the Third international conference on biomformatics of genome regulation and structure (BGRS'2002) P 100-103 July 14-20, 2002, Novosibirsk, Russia (стендовое сообщение)

2 Kalmma OV, Mironov AA, Gelfand MS, Rakhmanmova AB Identification of specificity determining positions in large protein families Currents in Computational molecular Biology 2003 P 337-338 (RECOMB'2003, April 10-13, 2003, Berlin, Germany) (стендовое сообщение)

3 Kalinina OV Automated selection of specificity determining positions in large protein families Proceedings of the International Moscow conference on computational molecular biology P 94-96 July 22-25, 2003, Moscow, Russia (устное сообщение)

4 Kalmina OV, Gelfand MS, Mironov AA, Rakhmanmova AB Amino acid residues forming specific contacts between subunits m tetramers of the membrane channel GlpF Proceedings of the XI International Scientific Conference for Undergraduate and Graduate Students and Young Scientists Vol 1, p 17 April 12-15,2004, Moscow, Russia (устное сообщение)

5 Kalrnma OV, Novichkov PS, Mironov AA, Gelfand MS, Rakhmanmova AB SDPpred a method for prediction of ammo acid residues that determine differences m functional specificity of homologous proteins and its application to the MIP family of membrane transporters Fourth international conference on biomformatics of genome regulation and structure (BGRS'2004) 25-31 July 2004, Novosibirsk, Russia (устное сообщение)

6 Kalinma OV, Novichkov PS, Mironov AA, Gelfand MS, Rakhmanmova AB SDPpred a method for prediction of ammo acid residues that determine differences m functional specificity of homologous proteins ISMB/ECCB-2004 31 July - 4 August 2004, Glasgow, UK (стендовое сообщение)

7 Kalinma OV Intersubumt contacts are often facilitated by specificity-determining positions International Moscow confeience on computational molecular biology July 18-21, 2005, Moscow, Russia (устное сообщение)

8 Kazakov AE, Permina EA, Kalinma OV, Gelfand MS Regulation of heavy metal resistance in Eubacteria International Moscow conference on computational molecular biology July 18-21,2005, Moscow, Russia (стендовое сообщение)

9 Reshetov DA, Kalinma OV, Rakhmanmova AB Computational analysis of functional specificity of the dicarboxylate/amino acid cation (Na+ or H+) symporter (DAACS) family International Moscow conference on computational molecular biology July 1821, 2005, Moscow, Russia (стендовое сообщение)

10 Koborova ON, Kalinma OV, Rakhmanmova AB Analysis of functional specificity of LacY proton/sugar symport family permeases International Moscow conference on computational molecular biology July 18-21, 2005, Moscow, Russia (стендовое сообщение)

11 Kalinma OV, Gelfand MS, Mironov AA, Rakhmanmova AB Specificity-determining positions in multimenc proteins are often located on the subumt interface ECCB/JBI Computational Biology, Madrid 2005 September 28-October 1,2005, Madrid, Spam (стендовое сообщение)

12 Kalinma OV, Gelfand MS, Russell RB Applying specificity determinants to identification of protein active sites and other functional features Keystone Symposium on Multi-Protein Complexes Involved in Cell Regulation, August 18-23, 2006, Cambridge, UK (стендовое сообщение)

Подписано в печать 14 04 2007 Формат 60x88 1/16 Объем 1 75 п л Тираж 100 экз Заказ № 646 Отпечатано в ООО «Соцветие красок» 119992 г Москва, Ленинские горы, д 1 Главное здание МГУ, к А-102

Содержание диссертации, кандидата физико-математических наук, Калинина, Ольга Вячеславовна

Глава 1. Введение.

1. Актуальность темы.

2. Цель и задачи исследования.

3. Новизна и практическая ценность.

4. Обзор литературы.

Глава 2. Методы.

1. Основные определения и допущения.

2. Новые алгоритмы, разработанные для предсказания СДП и функционально важных сайтов. a. Алгоритм для поиска позиций, определяющих специфичность белка (СДП). b. Алгоритм для предсказания специфичности новых белков на основе c. Алгоритм для предсказания функционально важных сайтов в структуре белка. d. Алгоритм для автоматического выделения групп специфичности.

3. Статистическая оценка качества предсказания.

4. Стандартные программы и ресурсы.

Глава 3. Программа для предсказания позиций, определяющих специфичность белка (СДП), ее тестирование и применение.

1. Общее описание программы.

2. Описание веб-сервера, реализующего алгоритм SDPpred.

3. Тестирование SDPpred на примере семейства бактериальных факторов транскрипции Lacl.

4. Применение SDPpred. a. Предсказание СДП для бактериальных транспортеров семейства MIP. b. Предсказание СДП для бактериальных факторов трансляции RF1 и RF2. c. Предсказание СДП для консервативного домена различных семейств аннексинов позвоночных. d. Предсказание СДП для НАД- и НАДФ-зависимых изоцитрат- и изопропилмалатдегидрогеназ.

Глава 4. Программа для предсказания функциональных сайтов, ее тестирование и применение.

1. Общее описание алгоритма.

2. Описание веб-сервера, реализующего алгоритм SDPsite.

3. Тестирование SDPsite. a. Тестирование SDPsite на примере семейства бактериальных факторов транскрипции LacI. b. Сравнение с другими методами. c. Тестирование SDPsite на базе данных CDD.

4. Применение SDPsite.

Глава 5. Обсуждение.

Глава 6. Выводы.

Введение Диссертация по биологии, на тему "Аминокислотные остатки, определяющие специфичность в больших семействах белков"

1. Актуальность темы Изучение функций белков является одной из важнейших задач молекулярной биологии и биохимии. В настоящее время объем расшифрованных белковых последовательностей (полученных путем прямого секвенирования или трансляции известных нуклеотидных последовательностей) во много раз превышает экспериментальные возможности исследования их функций. Поэтому все большую роль начинает играть функциональная аннотация т зШсо - методами биоинформатики. Такая аннотация с необходимостью носит характер предсказания, но может служить важной отправной точкой для дальнейших лабораторных исследований.

Объем информации, накопленной к настоящему времени в базах данных последовательностей, доменов, структур белков, позволяет с достаточной точностью предсказывать общую биохимическую функцию белка - класс транспортера, тип катализируемой реакции и т.п. Однако простой поиск по базе редко позволяет установить функцию с большей точностью или указать на важные функциональные сайты белка. Для этого требуются другие алгоритмы, которые могут дать предсказания, более точные и интересные с биологической точки зрения.

Настоящая диссертация посвящена описанию алгоритмов и анализу результатов работы пакета программ, позволяющего на основании последовательностей родственных белков, различающихся в деталях своей функциональности (специфичности), предсказывать аминокислотные остатки, отвечающие за эти различия, а также проводить с их помощью дальнейший анализ. Так, например, на основе предсказанных остатков можно предсказывать специфичность новых белков семейства и/или функциональные сайты белков (активный центр, поверхность взаимодействия с малыми молекулами, нуклеиновыми кислотами или другими белками). К моменту начала настоящего исследования было опубликовано лишь небольшое число подходов к решению этой задачи, и все они использовали дополнительную информацию об изучаемом белке, а значит, были не универсальны. Кроме того, ни один реализованный алгоритм не находился в свободном доступе. За прошедшие два года объем литературы - как новых алгоритмов, так и сделанных с их помощью предсказаний, в некоторых случаях подтвержденных экспериментально, - многократно возрос, что говорит о возросшем интересе и очевидной практической ценности данного направления.

Однако следует отметить, что описанный в настоящей работе алгоритм предсказания специфичных позиций был одним из первых опубликованных, и первым свободно доступным через Интернет средством для решения поставленной задачи. Разработанные в данной работе программы для предсказания специфичности новых белков и для определения функциональных сайтов в белках являлись на момент написания работы единственными доступными через Интернет средствами для решения таких задач с использованием информации о специфичности.

Заключение Диссертация по теме "Молекулярная биология", Калинина, Ольга Вячеславовна

Результаты работы сценария (4) представлены на рис. 4.2.4.

Cluster - Results

Best cluster for sp|P11244|GLPFECOLI.

Structure file "CRYSTAL STRUCTURE OF THE E. COU GLYCEROL FACILITATOR (GLPF) WITH SUBSTRATE GLYCEROL

SDPs (SDPs not present in the structure omitted): 236PRO, 232TYR, 48TRP, 207ASP, 159LEU, 195GLY, 187ILE, 135PHE, 191GIY, 30ALA, 22ILE

CPs (CPs not present in the structure omitted): 66HIS, 69PRO, 2G4PRO, 240PRO, 89PHE, 17GLY, 25GLY, 27GLY, 68ASN, 96GLY, 176GLY, 184GLY, 203ASN, 243GLY

Best cluster:

1 22ILE

2 48TRP

3 68ASN

4 69PRO

5 135РНЕ

6 1S9LEU

7 187ILE

8 191GLY

9 195GLY

10 203ASN

11 204PRO

12 207ASP

13 232TYR

14 236PRO

Рис. 4.2.4. Результаты картирования СДП и КП на структуру и предсказания лучшего кластера.

На этой странице представлены СДП и остатки, соответствующие им в выбранной структуре; КП и остатки, соответствующие им в выбранной структуре; и остатки, входящие в лучший кластер.

Сценарии работы с сервером SDPsite представлены на рис. 4.2.5.

Сохранение в формате RTF

Рис. 4.2.5. Сценарии работы с сервером SDPsite.

3. Тестирование SDPsite

Алгоритм SDPsite был протестирован на трех примерах.

Во-первых, SDPsite был применен к семейству бактериальных факторов транскрипции Lacl, включающему в себя регуляторы катаболизма различных Сахаров. Для этого семейства имеются обширные данные по специфичности различных белков семейства (Laikova, 2003) и данные о влиянии мутации каждого остатка на функционирование белка (Suckow, et al., 1996). В этом случае результаты применения SDPsite хорошо согласуются с имеющимися данными.

Во-вторых, было проведено сравнение работы SDPsite с другими методами предсказания функционального сайта, описанными в работе (Soyer and Goldstein, 2004). На рассмотренных в этой работе примерах, LacI и субтилизин-подобных протеазах, результаты SDPsite лучше, чем у других методов.

В-третьих, SDPsite был применен к большому количеству семейств из базы данных NCBI CDD (Conserved Domain Database). Эта база данных содержит выравнивания белковых доменов, в которых некоторые позиции помечены как «особенности» ("features") - активный центр, поверхность контакта с лигандом, сайт фосфорелирования и т.п. Мы предполагаем, что эти «особенности» и являются функционально важными позициями. Несмотря на то, что при таком подходе мы неизбежно недооцениваем собственные результаты (неотмеченные «особенностями» позиции также могут быть функционально важными, а набор «особенностей» включает позиции, которые не подходят под определение функционального сайта, такие как сайты фосфорилирования, гликозилирования и т.п.), SDPsite дает удовлетворительные результаты.

Кроме того, SDPsite был применен к большому количеству семейств, для одного из белков которых пространственная структура разрешена в рамках проекта по структурной геномике. Мы выбрали семейства, для которых нет другой структурной информации, мало литературных данных, а значит, положение функциональных сайтов в большинстве случаев неизвестно. Примеры наиболее интересных предсказаний обсуждаются. а. Тестирование SDPsite на примере семейства бактериальных факторов транскрипции LacI

Было рассмотрено выравнивание некоторых регуляторов семейства LacI, содержащее 125 последовательностей, разбитых на следующие группы специфичности, различающиеся типом эффектора и операторной последовательности ДНК: PurR, ScrR, RbsR(EC), GntR, RbsR(PP), GalR, MalR, CytR, CcpA, FruR. Эта группировка получена с помощью анализа геномного контекста, регуляторных сайтов и т.п. методами сравнительной геномики (1л1ко\га, 2003). Эволюционные отношения белков и их разделение на группы представлены на филогенетическом дереве (рис. 4.3.1). Для визуализации предсказаний и нахождения кластеров мы использовали структуру РигК из Е.соИ (идентификатор РОВ 1 ЬсШ).

Рис 4.3.1. Филогенетическое дерево семейства Ьас!

Мы применили ЗОРзйе в двух модификациях: с применением автоматической группировки и с использованием ручной группировки, основанной на анализе методами сравнительной геномики (Ьа1коуа, 2003). Соответствие групп, полученных в обоих случаях показано в табл. 4.3.1. Результаты предсказания показаны в табл. 4.3.11 и на рис. 4.3.2.

Библиография Диссертация по биологии, кандидата физико-математических наук, Калинина, Ольга Вячеславовна, Москва

1. Ahmad, S., Gromiha, M.M. and Sarai, A. (2004) Analysis and prediction of DNA-binding proteins and their binding residues based on composition, sequence and structural information, Bioinformatics, 20,477-486.

2. Ahmad, S. and Sarai, A. (2004) Moment-based prediction of DNA-binding proteins, J. Mol. Biol., 341, 65-71.

3. Ahmad, S. and Sarai, A. (2005) PSSM-based prediction of DNA-binding sites in proteins, BMC Bioinformatics, 6, 33.

4. Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs., Nucl. Acids Res., 25, 3389-3402.

5. Aytuna, A.S., Gursoy, A. and Keskin, O. (2005) Prediction of protein-protein interactions by combining structure and sequence conservation in protein interfaces, Bioinformatics, 21,28502855.

6. Bell, R.E. and Ben-Tal, N. (2003) In silico identification of functional protein interfaces, Сотр. Funct. Genom., 4,420-423.

7. Caffrey, D.R., Somaroo, S., Hughes, J.D., Mintseris, J. and Huang, E.S. (2004) Are proteinprotein interfaces more conserved in sequence than the rest of the protein surface?, Prot. Sci., 13, 190-202.

8. Casari, G., Sander, C. and Valencia, A. (1995) A method to predict functional residues in proteins, Nat. Struct. Biol., 2,171-178.

9. Chakravarty, S., Hutson, A.M., Estes, M.K. and Prasad, B.V.V. (2005) Evolutionary trace residues in noroviruses: importance in receptor binding, antigenicity, virion assembly and strain diversity, J. Virol, 79, 554-568.

10. Chandonia, J.-M. and Brenner, S.E. (2006) The impact of structural genomics: expectations and outcomes, Science, 311, 347-351.

11. Chung, J.-L., Wang, W. and Bourne, P.E. (2006) Exploiting sequence and structure homologs to identify protein-protein binding sites, Proteins, 62, 630-640.

12. Cushman, I., Bowman, B.R., Sowa, M.E., Lichtarge, O., Quiocho, F.A. and Moore, M.S. (2004) Computational and biochemical identification of a nuclear pore complex binding site on the nuclear transport carrier NTF2, J. Mol. Biol., 344, 303-310.

13. Davis, F.P. and Sali, A. (2005) PIBASE: a comprehensive database of structurally defined protein interfaces, Bioinformatics, 21,1901-1907.

14. Gaucher, E.A., Gu, X., Miyamoto, M.M. and Benner, S.A. (2002) Predicting functional divergence in protein evolution by site-specific rate shifts, Trends in Biochemical Scinces, 27, 315-321.

15. Gerke, V. and Moss, S.E. (2002) Annexins: From structure to function, Physiol. Rev., 83,331371.

16. Glaser, F., Pupko, T., Paz, I., Bell, R.E., Bechor-Shental, D., Martz, E. and Ben-Tal, N. (2003) ConSurf: Indentification of functional regions in proteins by surface-mapping of phylogenetic information, Bioinformatics, 19,163-164.

17. Gogos, A., Jantz, D., Senturker, S., Richardson, D., Dizdaroglu, M. and Clarke, N.D. (2000)

18. Assignment of enzyme substrate specificity by principal component analysis of aligned proteinsequences: An experimental test using DNA glycosylase homologs, Proteins, 40, 98-105.

19. Gu, P., Morgan, D.H., Sattar, M., Xu, X., Wagner, R., Raviscioni, M., Lichtarge, O. and Cooney,

20. A.J. (2005) Evolutionary trace-based peptides identify a novel asymmetric interaction thatmediates oligomerization in nuclear receptors, J. Biol. Chem., 280,31818-31829.

21. Gu, X. and Vander Velden, K. (2002) DIVERGE: phylogeny-based analysis for functionalstructural divergence of a protein family, Bioinformatics, 18, 500-501.

22. Halperin, I., Wolfson, H. and Nussinov, R. (2004) Protein-protein interactions: coupling ofstructurally conserved residues and of hot spots across interfaces. Implications for docking,1. Structure, 12,1027-1038.

23. Hannenhalli, S.S. and Russell, R.B. (2000) Analysis and prediction of functional sub-types from protein sequence alignments, J. Mol. Biol., 303, 61-76.

24. Hendlich, M., Rippmann, F. and Barnickel, G. (1997) LIGSITE: Automatic and efficient detection of potential small molecule-binding sites in proteins, Journal of Molecular Graphics and Modelling, 15,359-363.

25. Henikoff, S. and Henikoff, J. (1992) Amino acid substitution matrices from protein blocks, Proc. Natl. Acad. Sci., 89,10915-10919.

26. Janin, J. (2005) Assessing predictions of protein-protein interaction: The CAPRI experiment, Prot. Sci., 14, 278-283.

27. Jones, S. and Thornton, J.M. (2004) Searching for functional sites in protein structures, Curr. Opin. Chem. Biol., 8, 3-7.

28. Jordan, I.K., Wolf, Y.I. and Koonin, E.V. (2004) Duplicated genes evolve slower than singletons despite the initial rate increase., BMCEvolBiol., 6,22.

29. Kalinina, O.V. and Gelfand, M.S. (2006) Amino acid residues that determine functional specificity of NADP- and NAD-dependent isocitrate and isopropylmalate dehydrogenases, Proteins.

30. Kalinina, O.V., Gelfand, M.S., Mironov, A.A. and Rakhmaninova, A.B. (2003) Amino acid residues forming specific contacts between subunits in tetramers of the membrane channel GlpF, Biophysics, 48, S141-SI45.

31. Khil, P.D., Oblomova, G., Teplyakov, A., Howard, A., Gilliand, G.L. and Camerini-Otero, R.D. (2004) Crystal structure of the Escherichia coli YjiA protein suggests a GTP-dependent regulatory function, Proteins, 54, 371-374.

32. Kinoshita, K. and Nakamura, H. (2005) Identification of the ligand binding sites on the molecular surfaces of proteins, Prot. Sci., 14, 711-718.

33. Ko, J., Murga, L.F., Andre, P., Yang, H., Ondrechen, M.J., Williams, R.J., Agunwamba, A. and Budil, D.E. (2005) Statistical criteria for the identification of protein active sites using theoretical microscopic titration curves, Proteins, 59,183-195.

34. Korkin, D., Davis, F.P. and Sali, A. (2005) Localization of protein-binding sites within families of proteins, Prot. Sci., 14, ??-??

35. Fuctional Genomics, 4, 159-166.1.olios, K., Tavernarakis, N., Hugenholtz, P. and Kyprides, N.C. (2006) The Genome OnLine Database (GOLD) v.2: a monitor of genome projects worldwide, Nucl. Acids Res., 34, D332-D334.

36. Ma, B., Elkayam, T., Wolfson, H. and Nussinov, R. (2003) Protein-protein interactions: structurally conserved residues distinguish between binding sites and exposed protein surfaces, Proc. Natl. Acad. Sci. USA, 100, 5772-5777.

37. Madabushi, S., Gross, A.K., Philippi, A., Meng, E.C., Wensel, T.G. and Lichtarge, O. (2004) Evolutionary trace of G protein-coupled receptors reveals clusters of residues that determine global and class-specific functions, J. Biol. Chem., 27, 8126-8132.

38. Magliery, T.J. and Regan, L. (2005) Sequence variation in ligand binding sites in proteins, BMC Bioinformatics, 6, 240.

39. Mulder, N.J., Apweiler, R., Attwood, T.K., Bairoch, A., Barrell, D., Bateman, A., Binns, D., Biswas, M., Bradley, P., Bork, P. and al., e. (2003) The InterPro Database, 2003 brings increased coverage and new features, Nucl. Acids Res., 31, 315-318.

40. Nemoto, W. and Toh, H. (2005) Prediction of interfaces for oligomerizations of G-protein coupled receptors, Proteins, 58, 644-660.

41. Panchenko, A.R., Kondrashov, F. and Bryant, S. (2004) Prediction of functional sites by analysis of sequence and structure conservation, Prot. Sci., 13, 884-892.

42. Park, H.-S., Nam, S.-H., Lee, J.K., Yoon, C.N., Mannervik, B., Benkovic, S.J. and Kim, H.-S. (2006) Design and evolution of new catalityc activity with an existing protein scaffold, Science, 311,535-538.

43. Quan, X.-J., Denayer, T., Yan, J., Jafar-Nejad, H., Philippi, A., Lichtarge, O., Vleminckx, K. and Hassan, B.A. (2003) Evolution of neural precursor selection: functional divergence of proneural proteins, Development, 131,1679-1689.

44. Russell, R.B., Alber, F., Aloy, P., Davis, F.P., Korkin, D., Pichaud, M., Topf, M. and Sali, A. (2004) A structural perspective on protein-protein interactions, Curr. Opin. Struct. Biol., 14, 313324.

45. Saier Jr, M.H., Tran, C.V. and Barabote, R.D. (2006) TCDB: the transporter classification database for membrane transport protein analyses and information, Nucl. Acids Res., 34, D181-D186.

46. Silberstein, M., Dennis, S., Brown III, L., Kortvelyesi, T., Clodfelter, K. and Vajda, S. (2003) Identification of substrate binding sites in enzymes by computational solvent mapping, J. Mol. Biol., 332,1095-1113.

47. Sjolander, K. (1998) Phylogenetic inference in protein superfamilies: Analysis of SH2 domains. Conference Intelligent Systems for Molecular Biology. 165-174.

48. Soyer, O.S. and Goldstein, R.A. (2004) Predicting functional sites in proteins: site-specific evolutionary models and their application to neurotransmitter transporters, J. Mol. Biol., 339, 227-242.

49. Sui, H., Han, B.G., Lee, J.K., Walian, P. and Jap, B.G. (2001) Structural basis of water-specific transport through the AQP1 water channel, Nature, 414, 872-878.

50. Sutormin, R.A., Rakhmaninova, A.B. and Gelfand, M.S. (2003) BATMAS30 the amino acidsubstitution matrix for alignment of bacterial transporters, Proteins, 51, 85-95.

51. Tawfik, D.S. (2006) Loop grafting and the origin of enzime species, Science, 311,475-476.

52. Thompson, J.D., Gibson, T.J., Plewniak, F., Jeanmougin, F. and Higgins, D.G. (1997) The CLUSTAL X windows interface: Flexible strategies for multiple sequence alignemnt aided by quality analysis tools, Nucl. Acids Res., 25,4876-4882.

53. Whelan, S., de Bakker, P.I.W., Quevillon, E., Rodriguez, N. and Goldman, N. (2006) PANDIT: an evolution-centric database of protein and associated nucleotide domains with inferred trees, Nucl. Acids Res., 34, D327-D331.

54. Whisstock, J.C. and Lesk, A.M. (2003) Prediction of protein function from protein sequence and structure, Q. Rev. Biophys., 36, 307-340.

55. Wilson, D.N., Guevremont, D. and Tate, W.P. (2000) The ribosomal binding and peptidyl-tRNA hydrolysis function of Escherichia coli release factor 2 are linked through residue 246., RNA, 6, 1704-1713.

56. Yao, H., Kristensen, D.M., Mihalek, I., Sowa, M.E., Shaw, C., Kimmel, M., Karvaki, L. and Lichtarge, O. (2003) An accurate, sensitive, and scalable method to identify functional sites in protein structures, J. Mol. Biol., 326,255-261.

57. Yoshikuni, Y., Ferrin, Т.Е. and Keasling, J.D. (2006) Designed divergent evolution of enzyme function, Nature, 440,1078-1082.