Бесплатный автореферат и диссертация по биологии на тему
Статистический подход к задаче распознаванияпространственной укладки белковой глобулы поаминокислотной последовательности
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Статистический подход к задаче распознаванияпространственной укладки белковой глобулы поаминокислотной последовательности"

^ I О 0»1

1 ЗЭДЬскЬвский Физико—Технический Институт

Факультет Физико-Химическох! Биологии

Кафедра молекулярной биофизики

На правах рукописи Сюняев Шамиль Рашидович

Статистический подход к задаче распознавания пространственной укладки белковой глобулы по аминокислотной последовательности

03.00.02 - биофизика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико—математических наук

МОСКВА - 1997

Работа выполнена на Кафедре молекулярной биофизики Факультета физико-химической биологии Московского физико-технического института и в Институте молекулярной биологии им. В,А. Энгельгардга РАН.

НАУЧНЫЕ РУКОВОДИЛИ:

Доктор физико-математических наук В.Г. Туманян

Кандидат технических наук

E.H. Кузнецов

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

Доктор биологических наук

Д. А. Долгих

Кандидат физико-математических наук М.С. Геяьфанд

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

Институт биомедшщнской химии РАМН

Защита состоится <.'- '' " 1997 года ^ часов на заседании

Диссертационного совета К 063.91.10 при Московском физико-техническом институте (141700, г. Долгопрудный, Московская обл., Институтский пер., 9).

С диссертацией можно ознакомиться в Диссертационном совете К 063.91.10 при Московском физико-техническом институте.

/ ' /~ t . -Автореферат разослал" / £ " Ч £ w'v 1997 года.

Ученый секретарь Диссертационного совета Кандидат физико-математических наук

В.Б. Киреев

Общая характеристика работы

Диссертация посвящена статистическому анализу экспериментально определенных пространственных структур белков, проверке адекватности теоретических предпосылок статистических методов распознавания соответствия аминокислотной последовательности и типа пространственной укладки белка - методов "нанизывания" (threading) и "обратного фолдинга" (inverse folding), а также разработке новых математических подходов для этих методов. На базе этих подходов создана информационная система для предсказания типа структуры белков, для которых отсутствует экспериментальная информация по пространственной структуре.

Актуальность проблемы

Задача предсказания пространственной структуры белка по его аминокислотной последовательности традиционно считается важнейшей задачей молекулярной биофизики. Несмотря па многолетние усилия исследователей, эта задача все еще далека от своего решения. Вместе с тем, благодаря значительным успехам экспериментальных методов, в особенности рентгепострукгурного анализа, число известных трехмерных структур белков постоянно растет. В последние годы на основе статистического анализа банка пространственных структур белков сформулирован ряд количественных критериев соответствия аминокислотной последовательности и третичной структуры белка. С помощью таких критериев в ряде случаев удается выделить из банка пространственных структур трехмерпую структуру с типом укладки, соответствующим данной аминокислотной последовательности (совместимым с пей), или найти аминокислотные последовательности, соответствующие определенному типу пространственной структуры.

В то же время возможности существующих в настоящее время статистических методов предсказания структуры белка сильно ограничены. Это делает необходимым анализ теоретических основ

статистических методов предсказания структур белков и дальнейшее совершенствование статистических методов распознавания структур.

Цель и задачи исследования

Целью работы явилось создание новых статистических подходов к распознаванию пространственной укладки белковой глобулы для данной аминокислотной последовательности, развитие так называемых подходов "обратного фолдинга" или, иначе говоря, "нанизывания". Важнейшей частью работы полагалось исследование теоретического фундамента этих методов и выяснение того, существуют ли принципиальные ограничения статистических методов предсказания пространственной структуры белка, исследование возможности постановки вероятностной задачи применительно к параметрам, характеризующим положения аминокислотных остатков в молекулах белков.

Научная новизна и практическая ценность

Впервые проверена адекватность принятых статистических подходов для анализа банка пространственных структур белков. Установлены значимые и незначимые статистические предпочтения аминокислотных остатков к определенным положениям в трехмерной структуре белка. Разработаны и протестированы принципиально новые методы распознавания соответствия аминокислотной последовательности и типа пространственной укладки белковой глобулы. Создана информационная система для работы с банками аминокислотных последовательностей и пространственных структур белков, предназначенная для широкого круга исследователей.

Аппробация работы

Результаты диссертации докладывались на Всероссийской конференции "Информационные системы в науке - 95".

Публикации

По материалам работы опубликовано пять статей и три сообщения в форме тезисов.

Объем и структура диссертации

Работа изложена на 80 страницах, иллюстрирована семнадцатью

рисунками и содержи! 10 таблиц. Диссертация состоит из Введения и трех глав, включая литературный обзор. Список цитированной литературы содержит 92 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, определены цели и задачи исследования, его научная новизна и практическая ценность

В первой главе дан критический обзор литературы, в котором проанализированы литературные данные, посвященые статистическому анализу пространственных структур белков, классификации белковых структур и статистическим методам распознавания типов пространственных структур по последовательности, таким как "нанизывание" и "обратный фолдинг". Особое внимание уделено анализу теоретических основ методов, используемых аналогий из статистической физики, а также работам, посвященным "потенциалам средней силы" применительно к банку структур белков.

Кроме того, обстоятельно процитирована литература по теории проверки статистических гипотез. Особое внимание уделено непараметрическим, свободным от распределения тестам и теории асимптотической эффективности Бахадура.

Во второй главе изложены результаты статистического анализа параметров, характеризующих пространственное положение аминокислотных остатков в молекулах белков.

В статистических методах распознавания пространственной укладки белковой глобулы по аминокислотной последовательности используется ряд параметров, задающих пространственное положение аминокислотных остатков в молекуле белка. Вторичная структура и торсиошше углы характеризуют локальную конформацшо полипегтидной цеви, доступная для растворителя поверхность или общее число контактов с другими остатками описывают степень экспокированности остатка в растворитель и, тем самым, статистически характеризуют степень гидрофобности. Часто третичная структура описывается также с помощью парных контактов остатков. Исследование статистических свойств этих параметров интересно по многим причинам: оно может прояснить определенные моменты физики белка, в частности вопрос о том, какие взаимодействия и какие свойства аминокислот определяют сворачивание белковой глобулы, проверить справедливость теоретических предпосылок существующих статистических методов распознавания типа пространственной укладки по аминокислотной последовательности - методов "нанизывания", также оно позволяет определить пути совершенствования методов предсказания пространственной структуры белков. В данной работе мы провели статистический анализ ряда параметров для белков с экспериментально определенной пространственной структурой и проанализировали, насколько они удовлетворяют теоретическим предпосылкам методов "нанизывания". Были поставлены следующие три вопроса:

О статистической однородности: В большинстве работ, посвященных статистическим методам предсказания структур белков, вводятся и используются распределения вероятностей (а точнее -соответствующие плотности вероятностей) параметров положений аминокислотных остатков. Часто оценки этих плотностей вероятности используются для вывода потенциалов средней силы. В предлагаемой

работе анализируется справедливость предположения о существовании подобных распределений вероятности.

Ставится вопрос, можно ли считать наборы значений параметров из разных белковых молекул выборками из одного распределения? Иными словами проверяется, различаются ли статистические предпочтения для различных аминокислотных остатков занимать определенное пространственное положение в белковой глобуле.

Дадим формальное определение требования статистической

однородности. Рассматривается к выборок >М» значений

параметров положений аминокислотных остатков. Каждая выборка соответствует одной молекуле белка. Выборки полагаются полученными из генеральных совокупностей с функциями распределения /', 1\(х) соответственно. Проверяется гипотеза

однородности:

Я: ф) = Р2(х) %(х) Нами были использованы два стандартных критерия проверки гипотезы об однородности: ранговый критерий Крускала-Уоллиса и к.

выборочный критерий однородности^2. Гипотеза об однородности проверяется для каждого из 20 аминокислотных остатков (пары остатков в случае парных контактов) и для всех остатков вместе, независимо от их химического строения.

О различимости: Статистическое распознавание пространственной структуры белка по аминокислотной последовательности возможно только, если различпые аминокислотные остатки статистически предпочитают занимать различное

пространственное положите в глобуле. Для определения того, использование каких параметров более эффективно для предсказания типа пространственной укладки белка, необходимо изучить, насколько различаются распределения параметров для различных аминокислотных остатков и какие параметры лучше выявляют особенности расположения

аминокислот. Обозначим через 17„(х) функцию распределения параметра х для аминокислотного остатка типа а. Параметр х невозможно использовать для статистического предсказания типа пространственной структуры, если верна следующая гипотеза:

Н: Ул(х) = Рл{х)=...= Ру{х). Р-значение теста этой гипотезы может служить мерой разделимости распределений для разных остатков, т.е. мерой эффективности параметра х для распознавания структуры. В отличие от предыдущего случая мы требуем здесь малых Р-значений (невыполнения гипотезы) для того, чтобы признать хорошую различимость параметра.

Вызывает интерес, пространственное положение каких аминокислотных остатков и в какой степени определяется данным параметром. Значение конкретного вида аминокислотного остатка для распознавания можно определить, вычислив Р-значите критерия проверки следующей двухвыборочной гипотезы однородности:

Н: ^(х) = С(х),

где - смешанная функция распределения параметра х, т.е. функция распределения для всех типов аминокислотных остатков. Если эта гипотеза неверна, это означает, что статистически пространственное положение остатков типа а отличается от положения всех остальных остатков. Эта двухвыборочная гипотеза однородности может быть проверена с помощью критериев Вилкоксона-Манна-Уитни, Колмогорова-Смирнова или у}.

О позиционной консервативности: Значения параметров, характеризующих положение аминокислотного остатка в глобуле, не должны сильно изменяться на эквивалентных позициях белков с одинаковым типом укладки глобулы. Т.е. значения параметров положения остатков должны характеризовать архитектуру той или иной молекулы белка. Предложенная мера позиционной консервативности параметра есть среднее отношение среднеквадратичного отклонения параметра на позициях множественного структурного выравнивания

структурных семейств белков к среднеквадратичному отклонению параметра на всех позициях выборки.

Вышеперечисленные требования к параметрам являются основными предположениями, лежащими в основе методов "нанизывания", и, следовательно, могут служить критериями применимости параметров для статистического предсказания типа укладки глобулы по аминокислотной последовательности. Ниже будет показано, что при справедливости этих предположений задача статистического предсказания типа пространственной укладки может быть поставлена и решена в рамках теории проверки статистических гипотез.

Результаты проведенного статистического анализа показали, что предположение статистической однородности не выполняется для всех используемых в настоящее время структурных характеристик, причем в наибольшей степени для характеристик, описывающих локальную конформацию полипептидпой цепи, таких как торсионные углы, вторичная структура и парные контакты остатков незначительно удаленных по последовательности. Также далеко не во всех случаях подтверждается предположение различимости статистических предпочтений остатков или парных контактов остатков. Так, для пяти типов аминокислотных остатков распределение ни одной из используемых структурных характеристик значимо не отличается от случайного (т.е. для аминокислотного остатка случайного типа). В Табл.1, приведен анализ зпачимостей статитических предпочтений аминокислотных остатков к различным структурным характеристикам.

Таблица 1. Статистические предпочтения аминокислотных остатков к структурным характеристикам. Предпочтение считается значимым, если функция распределения структурной характеристики для остатка данного типа значимо отличается от функции распределения остатка любого типа. Значимые предпочтения отмечены знаком "+", слабые предпочтения знаком "?", почти полностью незначимые знаком "-".

Аминокислот дОСТуХШйх ¡СОйфОрлШШШ нарПЫ С

поверхность остова контакты

АЬЛ ? + -

+ - -

7 4- 9

А8Р ? ? -

су$ ? - +

вш ? - -

аы! + ? -

С.ЬУ ? + -

ШБ - - -

И.Е + + -г

ЬЕи + ? +

ЬУв + - -

МЕТ - - +

РНЕ ? - +

РНО - + -

ЯЕИ - ? -

Т1Ш - + -

ТКР - - -

ГУН - ?

УАЬ + + +

Невыполнение предположений статистической однородности и слабая различимость параметров ведет к ошибкам статистического распознавания типа пространственной структуры белка по аминокислотной последовательности. Это объясняет наблюдаемую относительно невысокую предсказательную способность существующих методов. Наличие аминокислот с чрезвычайно слабыми статистическими предпочтениями к позициям с определенными структурными характеристиками объясняет низкую достоверность выравнивания,

получаемого методом "нанизывания". До сих пор основным источником ошибок полагалась слабая позиционная консервативность параметров. В работе намечены пути преодоления ошибок предсказания, связанных со статистической неоднородностью структурных характеристик. Это оценка плотностей вероятности в классах белков, для которых ошибка неоднородности меньше, чем для случайной выборки, или оценка плотностей вероятности с учетом аминокислотного состава последовательности и конкретной пространственной структуры.

В третьей главе продемонстрированы статистические критерии соответствия аминокислотной последовательности и типа пространственной структуры белка.

В алгоритмах предсказания пространственной структуры бежа типа "нанизывания" используется тот хорошо известный факт, что различные аминокислоты статистически предпочитают занимать разные положения в белковой глобуле. Так, гидрофобные остатки чаще находятся внутри гидрофобного ядра, тогда как полярные остатки предпочитают залимать положение на поверхности белка, противоположно заряженные остатки чаще находятся в контакте, остатки глицина предпочитают области петель и т. д. В методах "нанизывания" тестируемая аминокислотная последовательность помещается в одну из известшлх пространственных структур, и таким образом получается модель белковой молекулы. Затем проверяется, насколько эта гипотетическая молекула белка удовлетворяет статистическим закономерностям, наблюдаемым в известных структурах белков. По нашему мнению, оценку соответствия аминокислотной последовательности и пространственной структуры целесообразно проводить с помощью критериев проверки статистических гипотез.

Пусть пространственная укладка белковой глобулы представлена последовательностью значений параметров положения остатка на каждой позиции. Мы будем рассматривать каждое значение параметра х положения аминокислотного остатка типа а, как реализацию случайной

величины X из генеральной совокупности с функцией распределения ['1(х). Таким образом, мы рассматриваем 20 генеральных совокупностей с функциями распределения , {а = 1.20} для каждого типа

аминокислотного остатка соответственно.

Тогда значение параметра, принадлежащее остатку любого типа, будет реализацией случайной величины из генеральной совокупности со смешанной функцией распределения <3(х):

где уа - доля остатков типа а в выборке белков.

Функции распределения ^(х), {а = 1,20} и О(х), разумеется, неизвестны, но они могут быть приближены эмпирическими функциями распределения ■/£(*)> {а = 1,20} и в' (х) по репрезентативной выборке белков с известной пространственной структурой. Для примера эмпирические функции распределения доступной поверхности для лизина /£(•*) 11 Для всех остатков, независимо от их вида О'(х) приведены на Рис. 1. Обозначим {х}а выборку значений параметра для остатков типа а в репрезентативной выборке белков; {х} = ^М,, -

а

объединенная выборка этих значений для всех типов аминокислотных остатков (смесь выборок {х}0). В соответствии с терминологией, принятой в статистической теории распознавания образов, мы называем выборки {х} и {х}о обучающими.

Эмпирическая функция распределения доступности для ЛИЗИНА

доступность

Эмпирическая функция распределения доступности дпя ВСЕХ остатков

доступность

Гистограмма с неравными интервалами для ЛИЗИНА

0.10

доступность

Гистограмма с неравными интервалами для ВСЕХ остатков

доступность

Оценка Парзена для ЛИЗИНА

доступность

Оценка Парзена для ВСЕХ остатков

доступность

Рис. 1. Эмпирические функции распределения, гистограммы и оценки плотности вероятности Парзена доступности для растворителя для лизина и для всех остатков.

Задавшись аминокислотной последовательностью, "нанизанной" на известную пространственную структуру, т.е. выравниванием аминокислотной последовательности и последовательности значений параметра положения остатков мы получаем 20 выборок {у}„ значений параметра, поставленных в соответствие аминокислотным остаткам типа а.

Формулировка статистической гипотезы и альтернативы:

Если пробная структура оказалась подходящей для тестируемой последовательности и выравнивание построено правильно, то каждая выборка {у}а является выборкой из генеральной совокупности с функцией распределения Ра(х) (гипотезаЯ0). В случае, если пробная пространственная структура не соответствует тестируемой последовательности или выравнивание построено неверно, сопоставление остатков структуры и последовательности ("нанизывание") является случайным, и, таким образом, каждая выборка {у]а может рассматриваться как выборка из генеральной совокупности с функцией распределения С(х) (гипотеза Я,). Другими словами, для того, чтобы сделать вывод о совместимости аминокислотной последовательности с тем или иным типом пространственной укладки глобулы, гипотеза Н„, согласно которой каждая выборка {у\а порождена функцией распределения Ра(х) для аминокислотного остатка типа а, должна быть проверена против альтернативы Я,, что каждая выборка {у}а порождена функцией распределения С(х). Данная постановка задачи схематически изображена на Рис.2. Мы рассматриваем критерии проверки гипотезы Я0 против альтернативы Я,, как критерии соответствия (совместимости) аминокислотной последовательности и пространственной укладки белка.

Выравнивание аминокислотной последовательности и профиля значений структурной характеристики

структура соответствует последовательности

КРАОКАОК

Р*кЫ

структура не соответствует последовательности

КРАОКАОК

I I I

0.21 0.00 0.23 0.34 0.00 0.03

Гипотеза Н0: каждая из выборок {у } порождена соответствующим распределением , г. е. последовательность подходит данной структуре

Гипотеза //,: каждая из выборок {}'}а порождена одним и тем же Распределением О , т. е. последовательность не подходит данной структуре

Рис. 2.

Критерии 31)-Ш соответствия:

Мы предложили и рассмотрели три статистических критерия соответствия первичной и третичной структур белка, построенных как критерии проверки соответствующей статистической гипотезы. Первые два критерия основаны на оценке плотности вероятности параметра положения аминокислотного остатка в глобуле, а третий критерий основан на непараметрической статистике. Результаты экспериментального сравнения критериев приведены наРис.3-5.

В соответствие с леммой Неймана-Пирсона, наиболее мощный критерий проверки простой гипотезы против простой альтернативы - это критерий отношения правдоподобия. Обычно используется логарифм отношения функций правдоподобия:

П «({у}.)

где /а(х) я g(x) - плотности вероятности функций распределения Р]{х) и О(х), соответственно. Эти плотности вероятности являются функциями правдоподобия и £({>'„}|Я0) при гипотезах Н0 и

Н1. В рассматриваемом здесь случае обе эти функции неизвестны. Однако, плотности вероятности /0(ж) и ^х) могут быть оценены по обучающим выборкам {*}„ и {х}. В нашей работе мы использовали два вида оценок плотности вероятности: гистограмму и оценку Парзена. В качестве примера, на Рис.1, приведены гистограммы и оценки Парзена плотности вероятности доступной поверхности для остатков лизина и для всех остатков.

Критерий, основанный на оценке плотности вероятности гистограммой:

Самый простой способ оценки плотности вероятности - это построение гистограммы. Для того, чтобы равномерно распределить данные по интервалам гистограммы мы использовали неравные интервалы.

Построенная на основе гистограммы оценка логарифма отношения правдоподобия имеет вид:

где р'а - частота попаданий значепий ха в г -ый интервал гистограммы, приближающей плотность вероятности /„(*). Аналогично, д' - частота попаданий всех (независимо от типа остатка) величин х в »-ый интервал, приближающая плотность вероятности , п'а - »тело элементов в тестируемой выборке уа, попавших в I -ый интервал гистограммы для й-го типа аминокислоты.

Легко видеть, что данный критерий можно выразить в виде суммы по позициям выравнивания:

На наш взгляд, интересно отметить, что эта форма оценки логарифма отношения правдоподобия с точностью до несущественной постоянной идентична "потенциалу", полученному многими авторами, исходя из предположения о Больцмановском виде распределения параметров положения аминокислотных остатков в глобуле и расстояний между остатками в банке известных структур молекул белков. В данной работе этот "потепциал" получен как критерий проверки статистической гипотезы при существенно более слабых предположениях.

Критерий, основанный на оценке Парзена:

Оценка Парзена - состоятельная оценка плотности вероятности. В отличие от гистограммы оценка Парзена является непрерывной функцией. Оценка Парзена в точке уа выражается как:

таким образом, оценки функций правдоподобия выборок {у}а при гипотезах #0 и выражаются следующим образом:

/\.л

» !

здесь - число элементов в обучающей выборке {х}„ значений параметра положения остатков типа а, N - число элементов в обучающей выборке {*} значений параметра положения для любых остатков , у'а -/-ый элемент тестируемой выборки {у)а, й и На вычислялись, как И = М~"2 и Ии = Ы^1, индекс суммирования / соответствует элементам обучающей выборки.

Таким образом, оценка логарифма отношения правдоподобия выражается как:

jfoK.w. А)

P[yl\N,{x},h)

суммирование производится по всем позициям выравнивания.

Важным достоинством критериев ^ и является их аддитивность, что позволяет производить процедуру выравнивания методом динамического программирования.

Непараметрический критерий.

Критерии Si и S2, предложенные выше, основаны на оценке плотности вероятности параметров положения аминокислотных остатков при гипотезах Я0 и //,. Однако, задача оценки плотности вероятности может оказаться проще для некоторой функции наблюдений (статистики). Оценка логарифма отношения правдоподобия для такой статистики может служить критерием проверки нашей статистической гипотезы и, следовательно, критерием соответствия аминокислотной последовательности и пространственной структуры. Так как функции распределения не могут быть a priori отнесены к какому-либо

параметрическому семейству, мы ввели непараметрическую ранговую статистику.

Ниже мы вводим непараметрическую статистику, которая представляет функцию от трех выборок: тестируемой выборки {у)а и двух обучающих выборок {х}с и {х}. Эта трехвыборочная статистика включает двухвыборочные статистики Вилжоксона-Манна-Уитни и, таким образом, имеет сходное асимптотическое поведение:

Несложно показать, что эта статистика имеет асимптотически нормальное распределение. Следовательно, оценкой логарифма отношения правдоподобия для выборки , с точностью до незначащей копстанты будет:

\2 / л \2"

[к-к{к)) (и.-¿.(к.))

2Уап(Га) 2Уагс(г,)

где входящие в формулу оценки математических ожиданий и дисперсий статистики У0 при гипотезах Н{) и Д были построены на основе существующей теории асимптотического распределения лилейных ранговых статистик при альтернативах.

В отличие от критериев 5, и 5'2 этот критерий не аддитивен по позициям выравнивания, однако существует аддитивная аппроксимация

критерия л3, программирования:

допускающая

применение

динамического

4*)

и ИагДГ.) 2 Гаг0(уа).

Уаг{Уа) Уаге(г.)

, здесь

1

1

Отношение гистограмм Тип структуры - TIM бочонок (1TIM)

Критерий S1

Отношение оценок Парзена Тип структуры - TIM бочонок (1TIM)

Критерий S2

Непараметрический критерий Тип структуры - TIM бочонок (1TIM)

Критерий S3'

Рис. 3. Гистограмма значений решающей функции для поиска последовательносге для структуры типа TIM бочонок (1TIM). Приведены гистограммы для критериев S, S2 и S3". Значения критериев отложенны по абсциссе, оответствующее числ последовательностей из библиотеки (частота) по ординате. Приведены идентификаторы белков с данным типом структуры, имеющие высокие значения решающей функции ( 2% уровень).

120 100 80 60 40 20 0

90 4-

30 -О

Отношение гистограмм Тип структуры - а/Р двойной винт (4РХК1)

2% ЗсЬу

Ж

5р21

Пег 2fx2

4fxn

Критерий

Отношение оценок Парзена

Тип структуры - а/Р двойной винт (4РХМ)

?%

6р21

2Л:г 2Ы2

4Гхп

ОТ от О

со О сг> о сг>

О) СЧ СМ

Критерий 32

Непараметрический критерий Тип структуры - "^двойной винт (4РХГ^)

4йсп

Рис. 4. Гистограмма значений решающей функции для поиска поспедоватепьносте для структуры типа Двойной винт (4РХМ). Приведены гистограммы для критериев $1. и Эз'. Значения критериев отпоженны по абсциссе, оответствующе число последовательностей из библиотеки (частота) по ординате. Приведены идентификаторы белков с данным типом структуры, имеющие высокие значения решающей функции (2% уровень).

Отношение гистограмм Тип структуры - греческий ключ IGB (3CD4)

2%

8fab 1 cid

3cd4

n « 3 5 с

Критерий S1

1ÜU у 120 -■

Отношение оценок Парзена Тип структуры - греческий ключ IGB (ЗС04)

8fab 1 cid

3cd4

Я PI

Критерий S2

200 Г50

Б (оо

46

1 50

а

Непараметрический критерий Тип структуры - греческий ключ IGB (3CD4)

8fab

1 cid

3cd4

Критерий S3'

Рис. 5. Гистограмма значений решающей функции для поиска последовательностей для структуры типа греческий ключ КЗВ (ЗСГИ) Приведены гистограммы для критериев 8,, и Э^'. Значения критериев отложенны по абсциссе, оответствующе число последовательностей из библиотеки (частота) по ординате. Приведены идентификаторы белков с данным типом структуры, имеющие высокие значения решающей функции (2% уровень).

Результаты тестирования критериев

Критерии ^ , ^ и ^ были протестированы в эксперименте по распознаванию аминокислотных последовательностей белков-членов ряда структурных семейств по пространственной структуре одного из белков. В качестве параметра, характеризующего положение аминокислотного остатка, была использована доступность остатка для растворителя. Результаты теста для трех широко представленных структурных семейств приведены па Рис. 3-5. Результаты тестов показывают, что разные критерии иногда распознают разные случаи структурной гомологии. Использование нескольких критериев существенно повышает достоверность предсказания. В целом, непараметрический критерий дает лучшие результаты.

Выводы

1. На основе проведенного статистического анализа пространственных структур белков определены границы применимости статистических моделей, используемых для распознавания типа пространственной укладки белковой глобулы по аминокислотной последовательности. Выявлены источники ошибок статистических методов предсказания структур белков.

2. Впервые дана строгая формулировка задачи соответствия амипокислотной последовательности и типа пространственной укладки белка как задачи проверки статистической гипотезы.

3. Разработаны и протестированы новые математико-статистические подходы к распознавайте типа пространственной укладки белка по аминокислотной последовательности, позволяющие получать результаты с более высокой степенью достоверности.

4. Показало, что существуют значимые и незначимые зависимости параметров пространственного положения аминокислотных остатков от типа их бокового радикала.

Публикации

1. Сюняев Ш.Р., Кузнецов Е.Н., Туманян В.Г. Новые критерии в обратной задаче струхтурообразования белка И Биофизика. 1994. Т. 39, вып.б. С.972-978.

2. Сюняев Ш.Р., Кузнецов Е.Н., Туманян В.Г. Статистические условия применимости описаний пространственной структуры, используемых в обратной задаче формирования белковой глобулы // Биофизика. 1995. Т. 40, вып.б. С. 1165-1170.

3. Сюняев Ш.Р., Федоров Б.Б., Куценко А.С., Кузнецов Е.Н., Туманян В.Г. Расширенная база данных пространственных структур белков, построенная с использованием экспертной системы оценки соответствия первичной и третичной структур // Тезисы конференции Информационные системы в науке-95, Москва, 1995. С. 105-106.

4. Sunyaev Sh.R., Kuznetsov E.N., Tumanyan V.G. A new statistical criteria for protein 1D-3D compatibility // Theses of International Conference Protein folding and design, Bethesda, 1996. P.208.

5. Сюняев Ш.Р., Кузнецов E.H., Туманян В.Г., Статитические критерии соответствия первичной и третичной структур бежа // Мол . Биол . 1996.Т30, вып. 5. С.1115-1123.

6. Sunyaev Sh.R., Kuznetsov E.N., Tumanyan V.G. The protein fold recognition based on the statistical hypothesis testing II Abstracts of the 24th Aharon Katzir-Katchalsky Conference. Folding and Design. 1996. V.l Suppl. S62.

7. Sunyaev Sh., Kuznetsov E., Rodchenkov I., Tumanyan V. Protein sequence-structure compatibility criteria in terms of statistical hypothesis testing // Protein Engineering. 1997. V.10, поб. P.101-112.

8. Sunyaev S.R. The protein fold recognition as the statistical hypothesis testing and statistical analysis of residue environment parameters // Futura (in press).