Бесплатный автореферат и диссертация по биологии на тему
Частотный анализ белковых последовательностей с целью поиска функционально существенных областей
ВАК РФ 03.00.03, Молекулярная биология
Автореферат диссертации по теме "Частотный анализ белковых последовательностей с целью поиска функционально существенных областей"
[ о 0 ^ российская академия наук
( институт молпсулярнои биологии - и 13в'; имени в.а.энгельгагдта
На правах рукописи
УДК 577.322.52:577.17.02
ГАБРИЭЛЯН Андрей Эдуардович
частотный анализ белковых последовательностей с целью поиска функционально существенных областей.
03.00.03 - Молекулярная биология
Автореферат диссертации на соискание ученой степени кандидата химических наук
Москва-1994
Работа выполнена в Институте молекулярной биологии "им Б.А.Энгельгардта Российское академии наук.
Научный руководитель -
доктор биологических наук Ц.П.Кекшччикоз
Официальные оппоненты -
доктор химических наук В.З.Плетгвь
кандидат физико - математических паук П.Г.Есппоса
Ведущая организация - Еаучзо-исслодозатагьсюм шститут
бИОМР-ДЬТиКНСКоМ ХМСГС
Защита диссертации состоятся << 2С-. • 1994 г. в
y/J
часов, па заседании Специализ1грозанного Совета Д 002.79.01 при институте молекулярной биологии ем./R.А.Энгельгардта РАН по адресу 117984 Москва, ул.Вавилова, 32
С диссертацией можно ознакомиться н бкСлио-.-же Института молекулярной биологик км. В. А. 3¡i г е ль гг рдта РАН.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Теоретический анализ функциональной топографии белкоз является актуальной задачей в связи с быстрым ростом количества белков с известной первичной структурой и трудностями их исчерпывапцего экспериментального изучения. Выяснение принципов структурно - функциональной организации . биополимеров представляет собой интересную научпуэ проблему, сочетекцу» анализ ун:с биохимических и биофизических, так и эволвционных к стсткстпческих данных. Одним из перспективных теоретических методов исследовании структурно-функциональных отношении структур биопопмероз является частотяыЗ анализ белков и нуклеиновых кислот, который представляет со бел статистическое исследование состава аминокислотных или нухлеотидных последовательностей. Основной его предпосылкой является предполосегаэ, что существует объектквная взаимосвязь статистических характеристик перзичной структуры и функциональной организации биополимера и эта взаимосвязь может бить выявлена к представлена в формализованном виде. Математической основой методов частотного аналкза служат теория информации. Существенное преимущество методов частотного анализа состоит в том, что они мог;*т достаточно эффективно использоваться бэз предварительной класслфакации белка как представителя одного из секейств и в отсутствие данных о пространственной структуре бчгка.
Целя и задачи работы. Основной цгльп данной работы была проверка, гипотззы о биологическом смысле принципа минимальной частоты встречаемости (уникальности) структур функциональных участков белкоз. Для этого Сило предпринято возмаяно более полное исследование вариантов частотного анализа аминокислотных последовательностей Гешаэв для предсказания локализации рецептор-связызагслих участков. Поставленная цель подразумевала решение следуу-лак задач:
фортлхр-овапие тестовой выборки белков с известным располоаеиием функционально вакаых участков белок-белкового взаимодействия;
- проверку предсказательной способности и статистической достоверности ¿редсказакий для различных вараантов частотного • ■, ,
анализа, вюютая использование частот встреч нуклеотидов, кодонов, аминокислот, да- и трипептидов;
- создание алгоритмов анализа первичных и пространственных структур глобулярных белков с учетом частотного состава, периодичности чередования аминокислот, экспонированности участков;
- привлечение частотного анализа пространственных структур белков для выяснения возможности предсказания функциональных сайтов других типов, например, активных центров и лиганд-связывалцих участков ферментов, а также участков связывания ионов металлов.
Научная новизна и практическая ценность работы.
Гипотеза о биологической природе уникальности функциональных участков является оригинальной; ее проверка дает возможность понять общие цринципн формирования структур участков, ответственных за саше разные биологические функции белка.
Путем сраваения различных вариантов частотного анализа установлены параметры, обеспечивавшие оптимальную
предсказательную способность при поиске функционально важных участков белок-белкового взаимодействия.
Предложен ряд новых алгоритмов теоретического анализа Функциональной топографии белков.
С применением разработанных алгоритмов проанализирована структура гормонов роста и их рецепторов; предсказан участок, ответственный за лактогенную активность гормона роста человека. Экспериментальная проверка показала правильность сделанных предсказании.
Показана возможность предсказания активных центров ферментов с помощью методов частотного анализа пространственных структур белков. На примере молекулы терколизина< продемонстрирована принципиальная разница в методах поиска функционально важных участков (ФВУ) различных типов.
Публикации. По материалам диссертации опубликовано 14 работ. ' -
Апробация работ. Результаты настоящего исследования доложены и обсуждены на первом и втором российско-израильском симпозиумах по пептидам и белкам (Реховот, 1930; Москва, 1992), Кейстоунском схнюзгуне по укладка белка, структуре и функции
(Кейстоун, 1991), V кснферешзм Российской федерации "Новые направления в биотехнологии" (Пущино, 1992), 6 симпозиуме Белкового общества (Сан-Диего, 1992).
Объем работы. Диссертация изложена на 156 страницах, включает введение, три главы и выводы, содержит 31 рисунок, 17 таблиц, в списке цитированной литературы 105 названии.
Краткое содержание работы. Глава 1. Обзор литературы.
В данной главе вначале дается краткий обзор теоретических методов исследования функциональной топографии белков. При этом анализируются только методы, не требувщие информации о пространственной структуре рассматриваемого белка. Затем более подробно разбираются работы, связанные с частотным янализом белков, проводится сравнительная оценка их достоинств и недостатков. В конце обзора литературы приводятся краткие сведения о функциональной топографии гормона роста, на котором впоследствии будут тестироваться некоторые методы частотного анализа.
Глава 2. Материалы и методы.
Для расчета частотных профилей и их статистических характеристик были написаны программы на алгоритмических языках С и BASIC для IBM-совместимых компьютеров. Данные по частотам встречаемости дипептидов и трипептидов были лаобезво предоставлены Р.Argos из European Molecular Biology Laboratory, Heidelberg, Germany и M.Cserzo из International Centre of Genetic Engineering and Biotechnology, Trieste, Italy. Аминокислотньи и нуклэотидные последовательности били взяты из банкоз данных Protein Identification Resource (PIR) и GenBank. Пространственная структура термолизина была взята из Brookhaven Protein Data Base. Все перечисленные банки данных поставлялась в составе коммерческого пакета программ DNASTAR. Для выравнивания белков применялась программа CLUSTAL, предоставленная D.Higgins, Europe*® Molecular Biology Laboratory, Heidelberg. Germany. Глава 3. Результаты и их обсуждение.
В начало приводятся основные положения теории информации, которые составляют теоретическую базу методов частотного анализа. Затем обсуядается центральная гипотеза о биояогжческои значимости частотного анализа аминокислотных последовательностей с целью
з
поиска функционально существенных областей. Рассматривая какую -либо лиганд-рецепторную систему, можно предположить, что одним из важнейших условии ее надежного функционирования является специфичность (селективность). Специфичность, т.е. гарантия от случайных, нефункциональных контактов, препятствующих выполнению рецептором (лигандом) своей функции, может быть обеспечена уникальностью структуры сайтов белок-белкового взаимодеиствия. Здесь представляется уместной старая аналогия- 'ключ-замок": чем сложнее ключ, тем меньше вероятность того, чтобы замок можно было открыть случайным юшчом. Для природных лиганд - рецепторных систем недопустима возможность того, чтобы посторонний белок мог оккупировать сайт связывания и либо "несанкционированно" запустить цепь биохимических реакций, либо предотвратить своевременный контакт с нужным белком. Поэтому мы рассматриваем уникальность ФВУ как меру предосторожности природы против случайного имитирования белками несвойственных функций.
Важный аспект уникальности касается вычисления частот встречаемости аминокислот (олигопептидов). Частоты (вероятности) могут быть рассчитаны для банка аминокислотных последовательностей. В этом случае частотные параметры характеризует несхожесть с белками, содержащимися в конкретном банке. Биологическая значимость такого варианта частотного анализа была рассмотрена выше. Мояно также предположить, что кроме - непохожести на сайты других белков, функциональный участок должен быть непохож на другие сайты своего родительского белка. Возможно, что непохожесть на сайты своего белка даже важнее -непонятно, будет ли возможен (по пространственно - временным соображениям) контакт рецептора с посторонним белком, а вот неправильно ориентированный и неправильно "севший" собственный лиганд - это тоже нефункциональный контакт, не позволяющий вовремя запустить цепь необходимых реакций. В этом случае логично использовать частоты встречаемости, вычисленные исходя из аминокислотной последовательности данного белка.
Для того, чтобы понять, какой частотный параметр важнее -характеризующий непохожесть на сайты прочих белков (обобщенные частоты встреч) или непохожесть на сайты своего белка (внутренние частоты встреч), а также определить предсказательную способность некоторых других вариантов вычисления уникальности, нами были
проведены ' сравнительные предсказания локализации ФВУ в аминокислотных последовательностях ряда гормонов.
Тестирование проводилось на 11 пептидных гормонах с хорошо изученной функциональной топографией (Табл. 1). При сравнении различных вариантов вычисления уникальности иы использовали два критерия оценки предсказательной способности метода: совпадение положения доминантного экстремума на частотам профиле с Функциональным участком данного белка к %?.-критерии достоверности предсказания. Эти дса критерия хорошо дополняют друг ;труга и их совместное применение позволяет адекватно оценить предсказательную способность.
Название белка Длина (а.к.) Локализация ФЗУ
Гастрлн 17 14-17
Тимопоэтин 49 32-36
Адренокортихотрсокг (АКТГ) 39 5-10
Холецистокчяин 33 26-33
Р-Зндорфин 31 1-5
Глгчагон 29 22-27
Коротгащ ЕеиротсксЕН (black тгыЬа) 60 25-32
Инсулин d4 21-26
Трансформирующий фактор роста 50 34-43
Длингай нейротоксин (formosan banded ta-ait) 74 26-37
Зпядермальныи фактор роста (мышь) 53 20-31
Таблица 1. Тестовая выборка гормонов и локализация рецептор-связыватацих участков.
Высокие значения коэффициента -¡2 соответствуя» гетерогенное предсказанию с большим различием мадду количеством верно и неверно предсказанных аминокислот. Будем считать верным предсказание функциональней аминокислота, если рассчитанное для нее значение характеристики (например, уникальнэегк), выше, чем сумм среднего значения и 0.7 среднекпадратичеаиго отклонения для зеек аминокислот белка. Аналогично, будем считать верным предсказание нефункциональной аминокислоты, если рассчитанное для
нее значение характеристики меньше, чей разность среднего значения и 0.7 среднехвадратического отклонения для всех аминокислот белка. В тех случаях, когда количество неверных предсглзгмгиЗ превосходит количество верных предсказаний, мы приписывали коэффициенту х.2 отрицательный знак. Математического смысла данный знак не имеет и не учитывается при подсчете среднего значения х2 по всем тестовым белкам и среднеквадратического отклонения от среднего. Ыы рассчитывали коэффициент х2 для каждого гормона тестовой выборки, вычисляя затем среднее значение н среднеквадратическое отклонение. Кроме того, мы использовали другой вариант расчета ("совокупный х2"), при котором кы суммировали количества верно и неверно предсказанных ажнокислот во всех гормонах, а затем, используя итоговые суммы, вычисляли х2. В этом случае мы . интегрально характеризуем полученные результаты, не детализируя их для отдельных белков. Значения коэффициента х2, большие 3.84, показывают, что вероятность случайно получить такие результаты (такую гетерогенность предсказания) меньше 5% (р<0.05), для значений, больших 2.71, - р<0.1, для значений, больших 6.65 -р<0.01.
Вначале бва протестирован простейшии метод построения частотного профяля (вариант "А"). При этом каждой аминокислоте ставилось в соответствие значение ее частоты встречаемости (обобщенной ива внутренней). Затем проводилось сглаживание, обычно с окном пять аминокислот. Коэффициенты х2, приведенные в табл.4, были получены для несглахенного профиля, а совпадение доминантного мишмума с ФВУ оценивалось на сглаженном профиле. Как будет показано ниже, сглаживание может существенно улучшить статистические параметры предсказаний. Согласно критерию доминантного мяиииума, наилучшие значения были достигнуты при использовании акали обобщенных частот встречаемости аминокислот. Верно были предсказаны 8 ФВУ из 11. По критерии х2 использование обобщенных частот также оказалось предпочтительным. Далее мы проверили несколько вариантов расчета уникальности, используя как обобщенные, так в внутренние частоты встречаемости аминокислот.
В варианте 2 ("Т") мы приписывали каждой аминокислоте не просто ее 'частоту встречаемости, а произведение частот
встрэчэемссти этой гминокисготы на частоты зсгречзаясти соседних аминокислот:
Fr-(i) - Fr(i-l) х Fr(i) х Fr(i+l) где Fr(i) • частота встречаемости i-и аминокнсжпи в белке (внутренняя либо обобщенная), Fr'(i) - частотный коэффициент, ::спользуемый для построения профилей. Например, в последовательности QnERlY для аминокислоты Ь: Fr'lZ) - FrW х Fr(E) х Fr(R).
В трзтьем варианте расчета унияльноста '"Д") били использсват: частоте встречаемости дкпептидов. Для каждой аминокислоты был;» рассчитывался параметр Fr"(i), равный произведению частот встречаемости двух соссднах дипептидов, ыслвчаюцдех данную аминокислоту:
Fr"(i) - Fr(i,i+1) х Fr(i-l,i) где i - номер аминокислоты, Fr(i,J) - частота встречаемости дипепткда, состоящего из аминокислот, имепцих нсягра i и j з рассматриваемом белке. Так, в последовательности QWERTY для амикжкелотк Z ': Гг"(Е) - Fr!£R) х Fr(ZE). Результаты тестирования к коэффициенты х2 Для вариантов "А.", "Д" и "Т" призедены в тэбч.Я.
Для того, чтоОи проворить, улучшается ли предсказательная способность частотного анализа при переходе от частот встрэчаскостя г? ни;1 ою-:слот к частота;.: белее длинных слигомеров, мы сравняли три варианта (с использованием частот встречаемости ^.шкокиелст, да- л трипептидоз) не гормонах капеи тестовой вьс'-орки. При этом использовались только обобщенные частоты. ПростеГгаии случай использования частот встреч аминокислот уже был описан вызе (вариант "А").
Обобщепнгэ чпстсти встреч Заутренние частоты встреч
Rap. А Вар.Т Вар.Д Вар. A j Взр.Т Вар.Д
Вссго зерлнзе предсказаний 8 (73%) 8 (73%) 7 (64%) 7 (64%) ¡8 (73%) 7 (64%)
СсЗОКУПЕ. 12 9.07 20.87 19.12 в. 87 1 44 19. Ов
Сред::. у2 i. 50 2.93 2.95 1.37 jl.49 2.4
S.D. l.Sb 2.65 2.84 1.05 ii.tl 1.6
Таблица 2. . Результаты тестирования вариантов вычисления уникальности. Подчеркнуты результаты, статистически значимые при р<0.1, подчеркнуты и выделены курсивом - значимые при р<0.05.
При испшьзовании частот встречаемости дипептидов каждая аминокислота в бедке (кроме последней) характеризовалась частотой дипептида, составленного из этой аминокислоты и следующей в аминокислотной последовательности белка. Этот вариант отличается от описанного ранее варианта "Д" тем, что теперь для характеризации аминокислоты не использовался дипеятид, включающий предыдущую аюЕокислоту. Используя частоты встречаемости трипептидов, зв приписывали каждой аминокислоте, кроме первой и последняя, частоту трипептида, составленного из этой аминокислоты (центральной) ы двух ее ближайших соседей. Таг:, для аминокислоты Е з последовательности QWERTY коэффициенты частотности будут вычисляться следующим образом: "moho" fr'(E) - fr(E)
"да" fr'(E) - £r(ER)
"три" ír'(E) - ir (VER)
Результаты тестирования трех вариантов приведены в Табл.3. Прежде всего следует отметить улучшение статистических характеристик предсказания при переходе от аминокислот ("моно") к дипептядам. Предсказания с использованием ди- и трипептидов статистически достоверно отличаются от случайных (р<0.1). Лидером по количеству верных предсказаний оказался вариант, использующим частоты встречаемости трипептидов. Это лучший результат (9/11; 62% верных предсказании), который нам удалось получить. Данный вариант оказался лучшим и согласно среднему значении коэффициента *2. Отметим, что при использования дипептидов было получено большее (правда, незначительно) значение совокупного i2. Естественно бвло предположить, что дальнейшее увеличение длины олигопептида, используемого в качестве текстовой единицы, должно привести к улучшения предсказательной способности. Очевидно, однако, что нельзя статистически достоверно определить частоту
встречаемости достаточно протяженного олигомера в банке аминокислотных последовательностей.
Нетод расчета
"моно" "да" "три"
Всего верных предсказаний 8 (73%) а (73%) 9 (82%)
Совокупи. 6.37 23.33
Средн. 72 1.37 3.18 3.57
Б.И. 1.С5 1.ев 2лз
Таблица 3. Результаты тестирования вариантов вычисления уникальности. Подчеркнуты результаты, статистически значимые при р<0.1, подчеркнуты и выделены курсивом - значимые при р<0.05
Нами был предлояен алгоритм расчета уникальности с использованием частот встречаемости пар аиино:снслот общей формулы ХПУ, где У- и У- либые из 20 акинокислот, п-расстояние (в аминокислотных остатках) чеяду ними. Для оценки упосальяости было решено принимать во ?:етмание только пары аминокислот, разделенные мэпэе чем 9 аминокислотами ("соседями").
Кьдцая аминокислота А в белке характеризовалась коэффициентом уникальности ии(А):
где //-(/¿^-частота встречи парц аминокислот А к В, разделенных в псрЕктнон структура 2с остаткам. Так, для аминокислоты Э модельной аклшо:сисготной последовательности ЧТПЙГЛРАЙВГБНКЬСУК униалы:ос7ь равна
и. (5)=
Казалось Си, чаи больше соседних аминокислот 131 учтем при расчете уикузл-лсст», там лучше ¡.ег охарактеризуем уникальность участка и тен виде будет предсказательная способность метода. Однако н'а практике оказалось, что зависимость предсказательной способности ст числа пар аминокислот. использованных при расчете уникальности, изменяется нелинейно (см. рис.2).
«...................о
121411711
Кошпеспо '6 ни»! соседей", ■иппцомдое при раскпх
Рис.2. Изменение гетерогенности предсказаний ФВУ гормонов тестовой выборки (по коэффициенту %2). Жирной линиеи показано изменение совокупного х2 (правая ось ординат), тонкой -среднего значения.по тестовой выборке и пунктирной - среднеквадратического отклонения (левая ось ординат). На оси абсцисс показано количество слагаемых с одной стороны аминокислоты, т.е. реальное количество пар, использованных при расчетах, вдвое больше.
Неожиданным является факт такого быстрого ухудшения статистических параметров гетерогенности предсказания - уже начиная с третьего соседа по цепи. Эти результаты, однако, находятся в некотором противоречии с результатами оценки предсказательной способности по локализации доминантного минимума. Так, дня расчета уникальности с 2 ближними соседями, лидирующему по коэффициентам *2, были получены следующие результаты: 7 верных предсказаний из 11 (64%). В то же время для расчетов с 9 блпшими соседями было получено 8 из 11, т.е. 73% верных предсказаний.
окно тряпептиды аминокислоты
обобщ. средняя 8.(1. обобщ. средний 5.(1.
1 29.14 3.57 2.83 9.07 1.55 1.58
3 29.59 4.25 3.56 25.34 3.92 4
5 28.33 4.67 4.43 18.28 3.21 3.15
7 14.09 3.71 з.зв в.З 2.46 2.96
9 в.71 4.23 2.53 1.7 2.44 2.57
11 3.45 4.1 2.78 0.1 2.14 2.85
13 1.75 4.21 3.84 п. а. п.а. п. а.
Таблица 4. Влияние длины окна сглаживания на результаты предсказания (по критерию х^) при использовании частот встреч аминокислот и трилептидов. п.с!.- значение коэффициента не вычислялось вследствие равенства нулю знаменателя в формуле расчета коэффициента
Далее мы провели сравнительное исследование влияния процедуры сглаживания на достоверность предсказания ФВУ при использовании частот встреч трилептидов и аминокислот (табл.4). Полученные данные свидетельствуют о сильном влиянии сглаживания на достоверность предсказаний. Если оценивать предсказательную способность по коэффициенту то оптимальное окно сглаживания при использовании частот встречаемости аминокислот равно трем, а для частот трилептидов -пяти аминокислотным остаткам. В данном случае более показательным является изменение совокупного коэффициента, так как только он учитывает то, что для разных белков гетерогенность предсказания может оказаться с разным знаком ("верная" и "неверная"), что снижает ценность предсказаний.
Ракее мы ьвдвжуяи гипотезу о возможных биологических причинах кластеризации редких аминокислот в функционально важных областях белков. Возможна, однако, и другая гипотеза о биологическом с ¡.игле уникальности, связывающая частотные характеристики колонов и лисализацию ФВУ. Известно, что скорость процесса трансляции связана с частотными характеристиками кодонов: участки, содержащие часто встречаяциеся ксдоны, транслируются быстрее. Однако высокая скорость трансляции может быть сопряжена с повышенным уровнем внесенных ошибок или неверным с:сладызанием полипептиднои цепи, что особенно нежелательно в фугасцтанально важных областях. Можно предположить, что функциональные участки должш кодироваться редкими кодонами, что обеспечит ы:со1:ую точность их трансляции и укладки. Как и грепде, для проверки данной гипотезы кы использовали ряд тестовых гормонов с известной локализацией ФВУ. В связи с тем, что мы располагали только значениям! частот встречаемости кодонов для человеческих белков, ряд гормонов был исключен из выборки.
и
Результаты, полученные при частотном анализе генов гормонов, приведены в табл.5.
Сразу хе можно отметить ухудшение предсказательной способности по сравнению с анализом аминокислотных последовательностей. Среднее значение коэффициента статистически недостоверно даже при р<0.2. Правда, если сравнивать с простейшим частотным профилем (вариант "А" с использованием обобщенных частот встречаемости аминокислот; совокупный %2 - 9.07, средний х2 ~ 1.55), то ухудшение невелико. Однако результаты с использованием дипептядов значительно превосходят результаты с использованием нуклеотидов. В случае анализа аминокислотных последовательностей смысл перехода к дипептидам, трилептидан и т.д. очевиден - таким образом мы можем более адекватно характеризовать уникальность сайта. Другими словами, в аминокислотных последовательностях при характеризации сайта аминокислота не является смысловой единицей и возможен переход к дипептвдами далее. В случае же нуклеотидных кодирующих последовательностей, в рамках выдвинутой гипотезы о связи скорости трансляции и функциональной важностью участка, кодон является смысловой единицей. Рассматривать частотный профиль,' полученный, -скажем, с использованием частот тетрануклеотидов, представляется бессмысленным., так как мы не знаем, отвечает ли тетрануклеотид какому-то биологическому (смысловому) механизму, который мог быть связан с особенностями структурно-функциональной организации бедна.
параметр оцеяхж ' частота астреиемосп гаюп
верных вредсгпмд 5/8(82.5%) 5/8 (82.5%)
Совокупи. т2 в. Об «1
Средн. г2 1.52 2.11
S.D. 1.9в 2.32
Таблица 5. Результаты анализа частотных профилей кодовов для гормонов тестовое выборки. Приведены результаты проверки гипотезы о соответствии минимальных значений профиля частотности и максимальных значениях профиля нормированной частотности функциональным участкам зрелых белков.
Отметим, что данное рассуждение справедливо только для кодирующих участков нуклеотидных последовательностей при анализе функциональных сайтов белков. Смысловые единицы функциональных сайтов самих нуклеотидных последовательностей (например, сайтов связывания с регуляторными белками), разумеется, могут не совпадать с триплетами. Известно достаточно много успешных работ по частотному анализу регуляторных районов нуклеотидных последовательностей с использованием частот от моно- до декануклеотидов.
Второй важный аспект вопроса о частотном анализе кодирующих последовательностей сзязан с предпочтительностью использования синонимических кодонов. Для анализа предпочтительности кодонового состава ФВУ мы нормировали частоту встречаемости каждого кодона на сумму частот встречаемости всех синонимических ему кодонов. Анализ частотных профилей с использованием нормированных частот встречаемости кодонов выявил предпочтительность использования наиболее часто встречающихся из синонимических кодонов в сайтах, соответствующих ФВУ белков (см.табл.5).
Метод поиска ФВУ, использующий профиль уникальности, и метод, использупции профиль гидрофильности, представляют собой два диаметрально противоположных подхода. Это следует, в частности, из того, что шкалы гидрофильности слабо коррелируют с частотными шкалами аминокислот.(коэффициент корреляции шкалы частот встречаемости аминокислот Dayhoff и шкалы гидрофильности Kyte-Doolittle г - -0.il) Анализируя профиль гидрофильности, мы, фактически, ищем кластеры гидрофильных и гидрофобных аминокислот. Кластеры гидрофильных аминокислот с высокой вероятностью экспонированы на поверхности белковой глобулы. Значит, выбирая доминантные максимумы, мы отбираем те .аминокислотные остатки, которые практически наверняка доступны для растворителя (воды), а также лиганда или рецептора, опосредующих биологическую функцию рассматриваемого белка. Подходя к поиску ФВУ с формальных позиций теории информации, мы - также приходим к необходимости оценки доступности (возможности рецептироваяия) информации. Ценность информации равна нулю, если ее нельзя рецептировать. Возможность же рецептирования информации в случае глобулярных белков, вероятно, означает возможность контакта ФВУ с рецептором или лигандом. Тогда информационная ценность участка будет
п
пропорциональна произведению количества информации на меру ее доступности.
Нами был разработан метод теоретического анализа аминокислотных последовательностей белков, совмещающий преимущества профилей частотности и гидрофильности - так называемый Двуыервьт график гидрофильность - уникальность. Ось абсцисс двумерного графика представляет собой шкалу частоты встречаемости (обратной уникальности), которая может рассчитываться на аминокислотном, да- и трипептидном уровне, как было показано раньше. Ось ординат - это шкала экспонированности. Чем точнее можно оценить доступность аминокислоты, тем точнее предсказания. В простейшем случае используется одна из шкал гидрофильности.
Каждая аминокислота (вообще говоря, 1аддыи участок белка) может быть представлена точкой на координатной плоскости, и положение этой точки определяется гидрофильностью и частотой встречаемости кластера аминокислот размером в окно сглагиванил с центром в данной аминокислоте. Совокупность этих точе:; и составляет двумерный график. гидрофильность - уникальность конкретного белка. Анализируя расположение точек на координатной плоскости, можно сделать выводы о том, может ли конкретно участок быть вовлечен в какую-либо биологическую активность либо это маловероятно. Если какой-либо участок удовлетворяет всем требованиям, т.е. он является одновременно и гидрофильным и уникальным, то, по всей видимости, он действительно является функционально важным. Промежуточные варианты интерпретировать труднее; мы предлагаем следупцуа схему анализа, схематически представленную на рис.4.
Так как диапазон частот встречаемостей :: гидрофильностей ограничен, все возможные положения точек укладываются в прямоугольник. Данный прямоугольник может быть условно разделен на несколько частей (зон), каждая из которых может быть охарактеризована с позиций вероятной значимости для функциональной топографии анализируемого белка (ск. рис.4). Зона 1 (наибольшая гидрофильность и наименьшая частота встречаемости) включает самые перспективные аминокислоты. Здесь и далее мы будем понимать под перспективностью вероятность того, что
рассматриваемая аминокислота входит в сайт, который является функционально значимым участком-белок-белкового взаимодействия.
гмдрофадомостъ иш
min
min тях
частот» апрямшли
Рис.4. Принципиальная "зонная* схема двумерного графика гидрофильность - уникальность. Стрелкой отмечено наиболее перспективное расположение точек (см. текст)
Зоны 2 и 3 (гидрофильные аминокислоты средней и низкой уникальности) менее перспективны, однако могут включать иммунодоминантные области (особенно зона 2). Вероятность того, что аминокислота участвует в специфическом контакте, уменьшается по мере продвижения вправо. Вероятность того, что аминокислота вообще принимает участие в каком - либо меямолехулярном контакте, уменьшается сверху вниз. Зоны 4-6 (средняя и низкая уникальность - средняя и низкая гидрофильность) включают, как правило, аминокислоты, ответственные за трехмерную структуру белка. Зоны 7 и 8 (низкая и средняя гидрофильность - высокая уникальность) включают аминокислоты, которые могут быть вовлечены в специфическую функцию белка, однако не всегда в первичный контакт между рецептором и лигандом. При анализе коротких гормонов, в структуре которых практически нет недоступных аминокисЛот, зоны 7 и 8 "равноправны" с зоной 1. И, наконец, зона 9 - самая большая и самая трудно характеризуемая. Ее составляют аминокислоты со средними значениями уникальности и гидрофильности, и при анализе функциональной топографии белка попадание точки в зону 9 практически невозможно интерпретировать. Точки из этой зоны могут представлять как функционально, так и структурно важные аминокислоты.
->
1 2 3
8 9 4
7 6 5
и
Затем в диссертационной работе подробно анализируется поиск участка связывания с лактогенным рецептором в молекуле гормона роста человека с использованием двумерного графика. Сравнение графиков лактогенного гормона роста человека и нелактогенного гормона роста быка позволило выявить участок, положение которого сильно варьирует, будучи весьма перспективным для человеческого я менее перспективным для бычьего гормона. Исходя из предположения о вероятной функциональной значимости данного участка (причем специфичной для человеческого гормоЕа), был проведен мутагенез; последующее биологическое тестирование нутанткых гормонов подтвердило, что указанный участок (164-369 аминокислота) действительно важен для наличия лавтогенном активности.
Далее в работе разбираются следующее вопросы, на которых кы не будем подробно останавливаться из-за ограниченного объема автореферата:
1. Возможность сведения двумерного графика "гвдрофклькость-уникальность" к одномерному; преимущества и недостатки. Зга тз.с. продолжается обсуждением возмошой атсди "цськостл" аминокислотных остатков, которкя объединяла бы гидрофтг.тьнэсть ч частоту встречаемости аминокислоты.
2. Возможность анализа последовательностей глобулярной белков бзз учета гидрзфилькэсти (экспонированкости) участков поляпелтадвс-й цепи. Мы проверили предсказательнуи способность методов частотного анализа ка 13 белках с известно:': ""к'лкзацкок участков белок-белкового взаимодействия. Получ°яныо результат;' уступ&эт полученным на выборке коротких горконса, что свидетельствует о необходимости введения дополнительного параметра, лйрактэрл-
зузздего экспонированность участка.
3. Анализ периодичности распределения редко и часто встреч,тхиркся аминокислот в первично:-: структуре. На призера гормона роста человека показано, что поиск периодического чередования чаотс и редко встро^ЕГщихя аминокислот является перспектизным при спирапькой конфориацтм функционального участка.
Л. Анализ часто и гздко ^стречапзкхсл трипептидоа одного и того же азягсокиалотного состава (характерны2 к редк-ла сочзтанкя). Сравнение способсв оценки частоты Естречаемости. Корреляции!
локализации характерных трипептидов и функционально важных участков.
5. Предсказание лиганд-связывапдих участков рецепторов гормонов роста и пролактинов (по материалам нашей статьи [13].)
В заключение более подробно остановимся на исследовании функциональной топографии териолизина, поскольку ряд моментов носит принципиальный характер и ранее не обсуждался.
Цы предположил!, что учет информации о пространственной структуре белка позволит использовать методы частотного анализа для пояска конфоркационных ФВУ, которые до сих пор остаются наиболее трудными объектами для предсказания. Кроме того, неисследованным остается вопрос о возможности применения частотного анализа для предсказания областей, важных для правильной сборки белковой глобулы. Нами была выдвинута гипотеза, что механизмы, обеспечивавшие корректное формирование внутриколекуляргпгх контактов и направляющие таким образом свертывание поляпептидноя цепи белка, а также определяющие стабильность молекулы в целом, могут быть основаны на использовании областей с повышенным уровнем уникальности.
В качестве модели для проверки данной гипотезы нами был выбран термолизин - фермент, принадлежащий к семейству секреторных металлопротеиназ бацилл. Термолизин обладает чрезвычайно высокой термостабильностью. Его структура состоит из двух доменов. Места контакта доменов (междоменный интерфейс) можно рассматривать как внутримолекулярные линейные участки белок-белкового взамодействия, возможно, ответственные и за термостабильность молекулы. Ключевым достоинством термолизина как модели является наличие результатов рентгеноструктурного анализа, а также достаточно подробных данных об особенностях его функциональной организации. В частности," ранее были картированы аминокислотные остатки, формирующие каталитический центр термолизина, субстрат-связывахщкн карман, области связывания ионов Са2+. Все эти функциональные участки являются конфорнационно-зависимыми (т.е. состоят из аминокислот, далеко отстоящих друг от друга в первичной структуре, но сближенных в третичной). Таким образом, мы можем оценить применимость различных вариантов частотного анализа для поиска различных типов ФВУ, не ограничиваясь только линейными участками белок-
белкового взаимодействия. Действительно, гипотеза о биологических причинах уникальности ФВУ имеет общин характер. Мы полагаем, что уникальный пространственный кластер аминокислот с большей вероятность» будет вовлечен в функциональную активность белка, чем тривиальный, часто встречающиеся кластер. Мы ввели новый параметр, названный ' "пространственная уникальность", для оценки частоты встречаемости пространственного окружения аминокислоты в трехмерной структуре белка. Пространственная уникальность аминокислоты тем аыше, чек необычнее для данной аминокислоты ее пространственное окружение. Для оценки тривиальности окруиения использовались данные по частотам контактов, образуемых аминокислотами в известшгх пространственных белковых структурах. Аминокислоты считались контактирущими, если расстояние мегду их Са-атонс;м нч
е
превышало 8 А. Следуя этому способу, мы характеризовал: кгпдуи аминокислоту Ак суммой частот контактов А»АК , где Ах -аминокислота, оказавшаяся в структуре данного белка в радиусе 8 X от аминокислоты Ак.
О < <КАХ,АН) <0Х ;
£г(АВ) - частота контактоз аминокислот А и В в пространственных структурах.
Мы также вычисляли средний пространственную уникальность, нормирозанную на количество контактов аминокислоты. Средняя (нормированная) пространственная уникальность не зависит от количества контактирующих аминокислот и, таким образом, не учитывает различий между экспонированными и экраннрсвэнныки аминокислотами:
и*А ='{Т/г{АхЛк))П ; к /
£г(АВ) - частота контактов аминокислот А и В б пространственных структурах; 1 - когагчество ажнокислот, контактлругсцю: а анализируемой пространственной структуре с аминокислотой /.к.
Нашей задачей было вменение локализации кластеров пространственно и линейно уникальных аминокислот ь структуре тер:<олиз:ша и соотнесении их с извастныки ФВУ, с оцешюл статистической достоверности получэкныт результатов. Согласно
коэффициентам х2, лучшей характеристикой для поиска активного центра и Са2+-связывающих участков является нормированная пространственная уникальность, для субстрат-связывающего участка - пространственная уникальность, для междоменного интерфейса -линейная уникальность (табл.6).
В заключение мы предприняли более детальный расчет пространственной уникальности. Критерий контакта между аминокислотами по расстоянию между их Са-атомами достаточно услосен, так как не учитызает действительного расположения боковых групп. Если принимать во внимание контакты между боковыми группами (критерий контакта - расстояние до 4.5 X между двумя любыми атомами различных групп), мы получим более реалистичную картину внутрибелковых контактов. Итак, пространственная уникальность бала пересчитана, . принимая во внимание контакты боковых цепей. Полученные результаты приведены в табл.6 (в скобках).
характеристика линейная пространственная средняя
группа уникальность пространственная
все ФВУ 4.19 8.76 (4.57) 9.78 (10.44)
Са2+-связ. 3.91 ■ 6.72Г7.55) 10.18(10.08)
активный центр -0.97 4.99(5.8) 6.66(7.45)
связывание -0.97 -3.79 (-3.83) -1.54 (-1.57)
субстрата
интерфейс 3.19 2.12 (-0.2) 0.98(0.49)
Таблица 6. Результаты оценки предсказательной способности различных вариантов расчета уникальности по критерию %2. В скобках приведены значения, полученные при учете контактов боковых групп.
Можно отметить, что результаты в целом улучшились, еще более наглядно подтверждая наши выводы о том, какие параметры характеризуют конформациойные и линейные ФВУ. Уточненная пространственная уникальность, как видно из табл.7, совершенно непригодна для поиска междоменного интерфейса. Однако, ее использование улучшило параметры предсказания конфоркационных ФВУ. Исходя из результатов тестирования по критерию х2, можно
оценить нормированную пространственную уникальность как достоверный критерий того, является ли рассматриваемая аминокислота составной частью конформационного Функционально ванного участка белка (Са2+-связкващий участок, активный центр, субстрат-связывагщий участок). Отметим также крайне низкке значения коэффициента х2 нормированной пространственной уникальвости для набора аминокислот, фопмирущих интерфейс. С другой стороны, линейная уникальность ус ножет применяться дл1 поисг.ов активного центра и субстрат-связывавшего участка. По-Екджгоиу, кснформационгслй активный центр фермента становится уникальным только после правильного складывания белковой глобулы, при этом pro составные части липейно ке ункчалькы. Некоторое исключе:ше составляют участки связывания кальция, которые уникальны и линейно, и пространственно, однако и для них результаты расчетов значительно улучшг.этся при переходе от линейнои к пространственной уникальности.
Таким образом, с помощью частотного анализа первичной и пространственной структур термолизина было проведено предсказание Функциональных областей термолизина, причем как линейных, так и конформационнах. Необходимо еще раз подчеркнуть, что полученные результаты подтверждает гипотезу о той, что функционально значимые области белков характеризуются повышенным уровнем уникальности.
ВЫВОДЫ.
1. Выдвинуты гипотезы о биологической значимости частотного анализа аминокислотных и нуклесгадных последовательностей белков с целью поиска их функционально важных участков. На основании полученных результатов можно сделать вывод о том, что наиболее вероятной представляется гипотеза об уникальности ФВУ для страховки от имитирования их структуры и, следовательно, футзпш, другими белками.
2. На аминокислотных последовательностям 11 гормонов с экспериментально локализованными рецептор - свя?ква»дини учасяами была проведена статистическая оценка предсказательной способности различных вариантов частотного анализа. Исследована зависимость предсказательной способности катодов частотного анелкза в зависимости от длины олигопептида, рассматриваемого в качестве
смысловой единицы, и параметров сглаживания частотного профиля. Лучшие результаты были получены при использовании частот встречаемости трипептидов (девять верных предсказании из 11;х2 -4.67 (р< 0.05) при сглаживании с окном 5 аминокислот).
3. Предложены оригинальные методы предсказания Функциональных участков белков (двумерный график "гидрофильность-уникальность", поиск периодичности чередования редко и часто встречающихся аминокислот, пространственная уникальность). Приведены примеры использования каждого из методов,■ демонстрирующие их высокую предсказательную способность.
4. Частотный анализ первичной структуры, по-видимому, непригоден для предсказания конформационно-зависимых ФВУ, но может успешно применяться для поиска линейных ФВУ. Напротив, частотный анализ контактов аминокислот в структурах белков не улучшает предсказаний линейных ФВУ, но позволяет предсказывать локализацию аминокислот, формирующих конформационно-зависимые функциональные участки, например, активные центры ферментов. Эти аминокислоты имеют уникальное пространственное, но не линейное, ' окружение, которое формируется только после укладки белковой глобулы.
5. Методами частотного анализа исследованы структуры гормона роста, рецепторов гормона роста, термолизина. Предсказаны вероятные функционально важные области этих белков. Проведено сравнение результатов предсказаний с известными экспериментальными данными. По результатам предсказания ФВУ гормона роста человека был спланирован его мутагенез с целью поиска участка связывания лакгогекного рецептора. Биологическое тестирование мутантных гормонов показало, что мы верно выбрали участок, формирующий лактогенную детерминанту гормона.
Основные результаты диссертационной работы изложены в следующих публикациях:
L. Gabrielian А.Е., Ivanov V.S., Kozhich А.Т., - "On searching for the active.sites in protéins and peptide hormones", - Comp.Appl. in the Piosci:, 1990, V.6, p. 1-2
2. Gabrielian-A., Heymann S., - "Amino acid complementarity: testing of hypotheses", - Biomed. Sei., 1990, 7.1, p.311-31
3. ГаОриэлян А.Э., Хаймакн Ш., - "Статистическая проверка гипотез о хошлемевтарности аминокислот, обусловленной генетическим кодом", -Тезиса Всесспза. Сю/nosjryua по химхи пептидов. Pitra, 1990, с. 127
4. Kirpichnikov И.. Schulga A., Rubtsov P., Gabrielian A., Pavlovskii
A., Borisova S., Jioroz 0., Vainstein В., Bulatov A., Skryabin K. , Bayev A., - "Growth hormone superfamily: structure and protein engineering", - Abstracts of first Israel-Soviet Seminar on Peptides and Proteins, 1990, Rehovot, p. 37
5. Иванова Н.Б., Кирпичников И.П., Габриэлян А.Э., - "Предсказание функционально вахных участков в белках с использованием методов распознавания образов*, - Тезиса докладов в стеадовях сообщении Второй всесоюзной хоиферешщи "Гейш человека-91', с. 154, Москва, 1991
6. Gabrielian А.Е., Nekrasov A.N., Kirpichnikov М.Р., - "Comparison of the predictive abilities of different methods based on information theory: searching for receptor-binding sites", - Biomed.Science, 1991, V.2, p. 481-464
7. Gabrielian A.E., - "Amino acid complementarity and the search for receptor-binding sites: new data and old hypotheses", - Abstracts of Keystone Symposia Protein folding, structure and function
J. Cell. Biol., 1991, Suppl. 15G, p. 182
8. Шульга А.А., Габриэлян А.Э., Долгих Д.А., Лопатин С.А., Варламов
B.П., Морозова Л.Ф., Суханов В.А., Кирпичников К.П., Скрябин К.Г., -"Картирование участков в молекуле соматотрошша человека, ответственных за лгктогенную активность", - Биотехнологии, 1992, т.6,
C.22-2S ■
9. ¿¿.тт-их Д.А., 4-едоров А.Н., Чемерис В.В., Финкельштекн А.В., Шульга А.А., Габриэлян А.Э., Лтицын О.В., Кирпичников Ц.П., - "Искусственннй белок с згдакзоя пространственной структурой: дизгшн, получение и исследование", - Биотехнология, 1992, т.5, с. 18-21
10. Gabrielian А.Е., Ivanova К.В., Kirpichnikov Н.Р., - "Analysis of contiguous functionally important sites and design of proteins with pre-determined function", - Abstracts of 6th Symposium of the Protein Society, San Diego, CA, 1992, p. 128
11. Schulga A.A., Gabrielian A.E., - "The capping of functionally important sites in human somatotropin molecule", - Abstracts of 6th Symposium of the Protein Society, San Diego, CA, 1992, p. 115
12. Gabrielian A.E, Dolgikh D.A., Ivanova N.B., Kirpichnikov Ы.Р., -"Database of continuous protein-protein interaction sites: analysis of functionally important elements of primary structures and design of proteins with predetermined function", - Abstracts of second Russian-Israel Symposium on Peptides and Proteins, 1992, Uoscow, p.37
13. Габриэлян A.3., Шульга А.А., Кирпичников 11.П. - "Теоретический анализ аминокислотных последовательностей рецепторов горхонов роста и пролактинов. Предсказание лиганд-связывагщих участков", - Иол. биология, 1992, т. 28, с. 916-926
14. Долгих Д.А., Габриэлян А.Э., Наволоцкая Е.В., Чемерис В.В., Кирпичников II.П., -"Искусственный белок с заданной пространствеиаой структурой в биологической активностью", - Бяофизюса, 1993, т.38, с. 67-74
- Габриэлян, Андрей Эдуардович
- кандидата химических наук
- Москва, 1994
- ВАК 03.00.03
- Периодичности в структуре промоторных участков ДНК
- Текстуальный и статистический анализ регуляторных последовательностей ДНК и РНК
- Информационно-статистический анализ нуклеотидных последовательностей
- Обнаружение ДНК-связывающих белков вируса осповакцины при помощи ДНК-белковых сшивок, индуцированных диметилсульфатом
- Структурная и функциональная характеристика генов человека RFP2, RFP2OS, KCNRG и C13ORF1