Бесплатный автореферат и диссертация по биологии на тему
Компьютерное моделирование локальных структур биополимеров, включая взаимодействия с лигандами
ВАК РФ 03.01.03, Молекулярная биология

Автореферат диссертации по теме "Компьютерное моделирование локальных структур биополимеров, включая взаимодействия с лигандами"

На Нравах рукописи

Урошлев Леонид Андреевич

КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ ЛОКАЛЬНЫХ СТРУКТУР БИОПОЛИМЕРОВ, ВКЛЮЧАЯ ВЗАИМОДЕЙСТВИЯ С ЛИГАНДАМИ

03.01.03 — Молекулярная биология

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

1 В СЕН 2015

005562344

Москва — 2015

005562344

Работа выполнена в Лаборатории вычислительных методов системной биологии Федерального государственного бюджетного учреждения науки Института Молекулярной Биологии им. В. А. Энгельгардта Российской Академии Наук (ИМБ РАН).

Научный руководитель:

Доктор физико-математических наук, профессор Туманян Владимир Гайевич

Зав. лабораторией вычислительных методов системной биологии Федерального государственного бюджетного учреждения науки Института Молекулярной Биологии им. В. А. Энгельгардта Российской академии наук. Официальные оппоненты:

Доктор физико-математических наук, профессор Лобышев Валентин Иванович

Ведущий научный сотрудник кафедры биофизики физического факультета Московского Государственного Университета им. М. В. Ломоносова. Доктор физико-математических наук Полозов Роберт Валентинович

Ведущий научный сотрудник лаборатории физической биохимии Федерального государственного бюджетного учреждения науки Институт теоретической и экспериментальной биофизики Российской академии наук Ведущая организация:

Федеральное государственное бюджетное научное учреждение "Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича"

Защита состоится <^5> 20

в часов на заседании Диссертационного Совета Д 002.235.01 при Институте молекулярной биологи им. В. А. Энгельгардта РАН по адресу: 119991, г. Москва, ул. Вавилова, д. 32 С диссертацией можно ознакомиться в библиотеке Института Молекулярной Биологии РАН и на сайте ИМБ РАН www.eimb.ru Автореферат разослан <{$ 03 2015 г.

Ученый секретарь Диссертационного Совета, кандидат химических наук Крицын А.М.

Введение

Актуальность

В различных явлениях реализации генетической информации выделяются в качестве фундаментальных процессы структрообразования в биополимерах и их комплексах. При воспроизведении таких процессов в рамках in silico моделирования всегда возникают вопросы о вкладе физико-химических характеристик биополимеров и роли среды и лигандов в этих явлениях. Все процессы протекают в средах различного химического состава и различных уровней строения, они содержат различные лиганды, которые играют как структурные, так и регуляторные роли. Поскольку in vivo невозможно дискриминировать роли внутриполимерных факторов и факторов среды в организации локальных структур биополимеров, соответствующие исследования должны проводиться, если не экспериментально, то на специальных многоуровневых моделях с вариациями сред и лигандов. Подход in silico, между тем, позволяет различить вклады физико-химических факторов и лигандов в системе иерархических моделей.

В последнее десятилетие особое значение приобрели исследования так называемых нативно неструктурированных белков. Бесструктурные белки - это макромолекулы, в которых вся молекула, либо её сегменты не обладают компактной пространственной структурой, и часто приобретают её в комплексах либо с низкомолекулярными лигандами, либо с другими биополимерами.

Вышесказанное означает высокую степень актуальности проблемы компьютерного анализа локальных структур в биополимерах, имея ввиду прежде всего разделение роли свойств остовов полипептидной цепи и боковых радикалов биополимеров и среды: молекул воды и ионов металлов.

Если говорить о роли воды и ионов в белках и РНК, то следует разделять структурную,

функциональную и регуляторную роли.

Был поставлен вопрос: что определяет образование изгибов и какова роль ионов в этих явлениях. Прежде всего, мы обращаем внимание на понятие разрешенных и запрещенных конформаций, так как именно на участках псевдоциклических пептидов необходимо выявить вклады свойств полимера и среды с лигандамн.

Многие функционально важные белковые домены, такие как цинковый палец или EF-рука, содержат ионы. Предсказание положения и наиболее вероятного типа ионов в любой наперед заданной структуре представляется весьма актуальной задачей.

Едва ли не еще большую роль ионы играют в функционировании нуклеиновых кислот, в особенности РНК. Ионы магния необходимы для корректной сборки рибосомы, а многие значимые информации РНК могут быть достижимы лишь в присутствии ионов магния (Draper, 2005). Учитывая, что конформация РНК влияет на регуляцию трансляции (в частности, конформация S'-UnTransated Region), можно сказать, что задача предсказания ионов в структурах РНК важна при исследованиях экспрессии генов.

Объект и метод исследования

Данные на которых производились исследования - структуры белков, представленные в банке данных PDB. Исследовались белки (металлопротеины) и рибонуклеиновые кислоты, взаимодействующие с катионами металлов. Предметом конформационного анализа служили локальные структуры белков, связанные с формированием изгибов полипептидной цепи белковой глобулы. Особое внимание уделено анализу "запрещенных конформаций", часто встречающихся, невзирая на стерические затруднения, в изгибах полипептидных цепей. Запрещенные конформации были проанализированы нами методом замыкания цикла, а также методами анализа локальной конформации с помощью геометрии расстояний. Для анализа

связывания металлопротеинами ионов в работе использовался модифицированный автором работы метод статистических потенциалов.

Цели работы:

1. Проанализировать конформации бета-изгиба бета-шпильки остова полипептидной цепи по признакам их энергетической стабильности и топологической детерминированности.

2. Выяснить возможное участие ионов и воды в поддержании напряженных и запрещенных энергетически конформаций остова полипептидной цепи и боковых групп.

3. Проанализировать влияние ионов и воды на электростатическую устойчивость систем белок-РНК-лиганды.

Научная новизна диссертационного исследования

Впервые для конформационного анализа пептидов, использован метод геометрии расстояний (distance geometry) в его последней модификации (Mucherino, Lavor, Liberti, 2013). Установлено, что такого рода объекты могут быть проинтерпретированы в рамках концепции топологического замка, что объясняет реализацию запрещенных конформаций в бета-изгибах бета-шпилек.

Показано, что энергетически напряженные конформации могут быть стабилизированы с помощью воды и ионов. Установлено, что в областях белка с конформациями, отличающимися пониженной энергетической стабильностью, как правило, расположены вода и ионы. При этом, молекулы воды всегда присутствует в запрещенных конформациях. Для эффективного анализа влияния факторов среды разработан новый алгоритм, позволяющий определять in silico положение и тип двухвалентных ионов в структурах металлопротеинов без иона (апо-форме). Детализирована карта Рамачандрана и выделены области, часто встречающиеся в локальных структурах белков с пониженной стабильностью.

Практическая значимость

Разработанные алгоритмы и программы, кроме фундаментального, имеют также и прикладное значение. Предложенные алгоритмы могут бьггь использованы в качестве дополнения к существующим экспериментальным методам определения пространственных структур белков, в частности методу ЯМР. Так, с помощью метода ЯМР нельзя получить химические сдвиги для ионов некоторых металлов.

Предложенные методы могут быть использованы для предсказания наиболее вероятного местоположения связанных ионов в рассчитанных теоретически структурах белков. Разработанные алгоритмы и программы могут использоваться в задачах белкового дизайна, в частности для конструирования белков, способных связывать заданный тип иона. Разработанные алгоритмы в дальнейшем могут быть обобщены на случай более сложных лигандов, и таким образом, потенциально могут быть использованы для проектирования лекарственных соединений. Знание о положении и наиболее вероятном типе иона в заданной структуре РНК позволяет более точно установить конформацию, а также определить функции той или иной молекулы РНК.

Апробация работы

Материалы исследований по теме диссертации докладывались и обсуждались на международных конференциях BGRSNSB (International Conference on Bioinformatics of Genome Regulation and Structure, Новосибирск, 2010), MCCMB (Moscow Conference on Computational Molecular Biology, Москва, 2011, 2013), на конгрессе Европейских Биохимических Обществ (Federation of European Biochemical Societies Congress, FEBS Congress, Санкт-Петербург, 2013), на второй школе-конференции по хемоинформатике (Казань, 2013), симпозиуме по интегративной и вычислительной биологии (Integrative and Computational Biology Joint symposium, Барселона, Испания, 2014), конференции PepCon-

2014 (Annual World Protein & Peptide Conference, Далянь, КНР, 2014), на 20-м Европейском симпозиуме по анализу количественных взаимосвязей структура-активность (EuroQSAR-2014, Санкт-Петербург, 2014).

Структура и объем диссертационного исследования

Диссертация изложена на 102 страницах и включает введение, обзор литературы, три главы, заключение и список литературы. В главе 1 изучается конформация шпильки ЭНЗ-домена. Глава 2 посвящена описанию метода для предсказания позиции иона в структуре белка, и разработке модели для поиска наиболее вероятных сайтов связывания. В этой же главе описано тестирование разработанного алгоритма для случая наиболее распространенных ионов, а так же производится анализ применимости метода для таких задач, как предсказания положения иона в апо-структурах и структурах, полученных в результате in silico моделирования. В главе 3 разработанный алгоритм для предсказания ионов применяется для случая структуры РНК.

Основное содержание диссертационного исследования Введение и обзор литературы

Во введении рассматривается актуальность поставленных проблем, формулируются цели, задачи, научная новизна и практическая значимость, приводится обзор литературы, по проблемам структурообразования биополимерных макромолекул и роли воды и ионов.

Глава 1. Исследование бета-изгиба Н'-типа бета-шпильки альфа-спектрина

После того как Рамачандран с сотр. построили карту допустимых конформаций остова полипептидной цепи (для дипептидной единицы), она стала широко использоваться для анализа конформационных возможностей глобулярных белков. Оказалось, что достаточно

большой процент экспериментально определенных конформаций попадает в стерически запрещенные области. Примером такого типа конформации является бета-изгиб Н'-типа бета-шпильки БЮ-домена альфа-спектрина. «Запрещенность» конформации состоит в том, что углы ф и ф для 47 позиции (в ней находится аспарагин) попадают в область на карте Рамачандрана, разрешенную только для глицина. Такая «запрещенная» область возникает из-за напряженных контактов между боковой цепью и остовом следующей аминокислоты.

1.1. Структурные характеристики вНЗ-домена альфа-спектрина

Белки, содержащие ЭНЗ-домен представлены в PDB десятками структур, в числе которых как нативные, так и мутантные структуры. На рис. 1 показано распределение углов ф и ф 47-

го остатка во всех структурах ЭНЗ-домена для альфа-спектрина на карте Рамачандрана.

180 150 120 90 60 30

> о

-30 -60 -90 -120 -150 -180

-180 -150 -120 -90 -60 -30 0 30 60 90 120 150 180 Ф

Рис. 1. Карта Рамачандрана с нанесенными на неё углами ф и ф для 47-го аминокислотного остатка. Точке соответствует PDB-код белка.

Как легко видеть, большинство структур, как нативных, так и мутантных, лежат в 4-м квадранте. В дальнейшем, будут рассматриваться структуры, содержащие запрещенные конформации.

L b 1

tf pa 1«, у

1.2. Замыкание цикла путем перебора пар двугранных углов и оптимизации невязки

Чтобы установить причины реализации запрещенной конформации, были изучены все имеющиеся в банке РОВ структуры альфа-спектрина, содержащие 5НЗ-домен. Детально изучались как изгибы, так и прилегающие к ним остатки бета-шпильки (номера остатков с 45-го по 49-ый). Концами изгибного фрагмента считаются атом Са атом 45-ой аминокислоты и N 50-ой. В качестве целевой функции, которая минимизировалась, использовалась невязка, а именно полусумма расстояний между рассчитанными позициями первого и последнего атома шпильки. При этом позиция первого крайнего атома получалась при обходе шпильки от 49 к 45 аминокислоте, позиция последнего - при обходе шпильки от 45 к 49 аминокислоте. При оптимизации проводился перебор углов ср, у и со, принадлежащих 47 и 48 аминокислотам, которые и составляют собственно бета-изгиб рассматриваемой шпильки. При этом в ходе оптимизации углы ср и перебирались в диапазоне от -180° до 180°, а углы со в диапазоне ±10° от значений соответствующих рентгеноструктурным данным. Шаг перебора равен одному градусу.

Для нахождения точного решения использовались алгоритмы оптимизации, основанные на методе Поуэлла. Результаты замыкания псевдоцикла для перебора двугранных углов представлены в Табл. 1, для оптимизации по невязке - в Табл. 2. Как можно видеть, помимо решения, соответствующего рентгеноструктурным данным, имеется ещё только одно решение.

Таблица 1. Среднеквадратичное отклонение значений углов и невязка, полученные в результате перебора по сетке.

ГОП го "46-47 ¥>47 Ч> 47 Ы47-48 <?>4а "46-47 "48-49 Невязка (А) ЯМ50 (по углам)

15НС 203.03 33.0 -84.0 188.62 -106.0 -6.0 188.62 0,5142 3,145

1РИТ 187.04 45.0 -107.0 183.29 -99.0 12.0 183.29 0,9732 5,8975

3190 174.03 65.0 -118.0 174.03 -930 11.0 184.12 0,039 2,7975

ЗМ(Ж 182.64 51.0 -111.0 189.4 -77.0 -5.0 181.74 0,3052 7,92

11)06 185.62 44.0 -106.0 189.31 -85.0 9.0 189.31 0,3504 3,3725

1QKX 182.73 51.0 -120.0 178.13 -103.0 9.0 178.12 0,1995 7,2625 I

2F2W 182.3 50.0 -112.0 180.66 -98.0 8.0 179.91 0,9338 4,615 1

Таблица 2. Среднеквадратичное отклонение значений углов и невязка, полученные в

результате минимизации.

PDB ID № "46-47 V>47 4> 47 "47-48 048 V 48 "48-49 Невязка (A) RMSD (no углам)

1SHG 1 203.03 43.35 -90.10 188.62 -108.52 -10.27 184.61 1.4755620C-05 0.0044

1SHG 2 203.03 43.35 -90.10 188.62 -21.87 -80.4 184.61 2.7471148e-05 0.0045

1PWT 1 187.04 57.49 -101.87 183.29 -118.31 13.25 177.25 3.6270163e-05 0.0004

1PWT 2 187.04 57.49 -101.87 183.29 2.44 -83.91 177.25 2.5512722e-05 0.0010

3M0R 1 182.64 61.15 -114.32 189.4 -96.59 17.49 181.74 1.5903021e-05 0.0010

3M0R 2 182.64 61.15 -114.32 189.4 -72.76 14.32 181.74 3.3717111e-05 0.0017

3190 1 174.03 66.25 -118.11 184.71 -8.67 -67.82 184.12 1.2291452e-05 0.0023

3190 2 174.03 66.25 -118.11 184.71 -89.61 -0.41 184.12 2.8499311e-05 0.0023

2F2W 1 182.3 58.03 -105.71 180.66 -112.9 9.52 179.91 l.S000220e-05 0.0056

2F2W 2 182.3 58.03 -105.71 180.66 0.62 -89.25 179.91 3.0268507e-05 0.0058

1U06 1 185.62 54.29 -109.73 189.31 -92.83 8.04 189.31 2.6176126e-05 0.0031

1U06 2 185.62 54.29 -109.73 189.31 -1.92 -62.46 189.31 1.3195006e-05 0.0010

1QKX 1 182.73 55.31 -121.65 178.13 -112.67 36.12 178.92 3.1417707e-05 0.0029

1QKX 2 182.73 55.31 -121.65 178.13 26.24 -90.52 178.92 1.0825642e-05 0.0029

1.3. Замыкание цикла с использованием геометрии расстояний

Для корректного замыкания цикла перспективны методы геометрии расстояний. С помощью подходов геометрии расстояний можно восстановить конформацию (в том числе исследуемого фрагмента), зная лишь набор расстояний между атомами. В данном исследовании для замыкания цикла мы использовали программу Mdjeep (Mucherino, Lavor, Liberti, 2013). Одним из главных преимуществ этой программы, по сравнению с такими программами, как TINKER (Ponder, Richards, 2004) или Dgsol (Liberti, Lavor et al., 2012), является оценка количества решений и возможность увеличения количества параметров определяющих конформацию. При построении модели, фиксировались расстояния между атомами, соединенными ковалентными связями внутри шпильки, а также расстояния между краями шпильки, а именно между атомом С 45 и атомом N 50, а так же N 46 и С 49. Рассмотрены атомы остова полипептидной цепи. Исследуемый фрагмент включал те же аминокислоты, что и в пункте 1.2. Как можно видеть из Табл. 3, найденные конформации практически не отличаются от наблюдаемых экспериментально. Вторым решением, полученным с помощью MDjeep (Mucherino, Lavor, Liberti, 2013) и

имеющим то же значение функции правдоподобия, является зеркальное отражение решения, реализуемого в структуре (что свойственно геометрии расстояний).

Таблица 3. Функция правдоподобия и значения ИМБО, полученные в результате использования геометрии расстояний (для программы Мфеер).

PDBID "46-47 </>47 047 "47-48 «>48 048 "48-49 Невязка (А) RMSD

1SHG 202,998 43.409 -90.118 18Я,617 -108.536 -10.287 184,577 1.8717е-16 0.0803

1PWT 187,016 57.552 -101.855 183,281 -118.309 13.197 177.251 2.45038е-16 0.0868

3M0R 182,633 61.086 -114.317 189,396 -96.575 17.439 181,773 1.16652е-16 0.0899

3I9Q 174.017 66.283 -118.188 184.689 -89.582 -0.4 184,102 5.78848е-16 0.0948

2F2W 182,306 58.064 -105.738 180,651 -112.989 9.566 179.918 5.53652е-15 0.1102

1U06 185,608 54.254 -109.695 189,331 -92.858 8.07 186,75 9.39603е-17 0.0692

1QKX 182,730 55.281 -121.612 178.106 -112.71 36.188 178.861 3.5376е-16 0.1120

1.4 Оценка степени «запрещенности» конформации ß-изгиба П'-типа

Были отобраны структуры БНЗ-домена с разрешением не хуже 2.3 А. Валентные углы для конформации остатка Asn47 сравнивали со значениями из стандартного набора валентных углов, взятых из работы (С. Ramakrishnan, G. N. Ramachandran, 1963).

Были рассчитаны расстояния между атомами Asn47 и атомами, принадлежащими предыдущему и последующему остаткам. Надо отметить напряженные вандерваальсовы контакты между С' Asn47 и С' предыдущего остатка (3.09 А), между Cß Asn47 и С' предыдущего остатка (3.13А), между С' Asn47 и С' последующего остатка (3.08Ä). Но наиболее значимым, как представляется, является укороченный контакт между Cß Asn47 и N следующей аминокислоты (2.67 А). В работе (D. S. Berkholz, 2009) утверждается, что этот контакт компенсируется за счет раскрытия соответствующего валентного угла и становится равным 2.71 А. Мы не наблюдаем на структурах, сделанных с высоким разрешением, подобного раскрытия валентного угла, и соответственного увеличения расстояния. Авторы работы (D. S. Berkholz, 2009) обнаруживают несколько напряженный контакт между О предыдущего остатка и Cß Asn47 (3.06-3.09 А). Согласно нашей оценке это расстояние равно 3.23 А, то есть укороченного контакта не наблюдается.

Глава 2. Универсальная процедура получения статистических потенциалов для бивалетных катионов и воды

Для разработки алгоритма предсказания расположения ионов в структурах белков мы используем подход, основанный на вычислении статистических потенциалов . В этом подходе оценка псевдоэнергии связывания иона и биополимера определяется как (11ак]1тапоу, Макееу, 2007):

. > Где (!)

где - статисгическии потенциал, для заданного типа ионов, с! - расстояние от точки, в которой вычисляется потенциал, до атома белка определенного типа, а £ - псевдоэнергия связывания. Суммирование в формуле (1) ведется по всем атомам, входящим в структуру белка.

Для получения статистических потенциалов необходимо оценить насколько наблюдаемые в трехмерных структурах белка расстояния между ионом и атомами определенного типа статистически достоверно отличаются по сравнению с некоторым гипотетическим состоянием, в котором белковая глобула имеет ту же форму, что и в природе, и имеет те же точки связывания ионов, но распределение атомов внутри объема белковой глобулы однородно для всех типов атомов и не зависит от межатомных взаимодействий, и, в частности, от взаимодействий со связанными ионами. Для этого введем два распределения расстояний между ионом и определенным типом атома структуры - наблюдаемое, которое соответствует реальным структурам, и ожидаемое - которое соответствует пространственным структурам, в которых атомы всех типов распределены равномерно. Для оценки распределения наблюдаемых расстояний, для каждой из структур строится распределение расстояний между заданным ионом и каждым из наблюдаемых типов атомов структуры. Далее, распределение нормируется на количество атомов данного типа в структуре. Для оценки ожидаемого распределения расстояний мы используем метод

взвешенных состояний. Для этого для каждой структуры из обучающей выборки в пространстве этой структуры строится сетка с равномерным шагом, и затем, строится гистограмма распределения расстояний между точками сетки и атомами структуры. После нормирования на число узлов сетки эта гистограмма и считается оценкой ожидаемого распределения расстояний для данной структуры. После вычисления ожидаемого и наблюдаемого распределений для каждой из структур, окончательные распределения получаются с помощью усреднения ожидаемых и наблюдаемых распределений по количеству структур. Логарифмированное отношение между этими усредненными распределениями и будет считаться статистическим потенциалом.

Ф |= _ ]п I ^ ^ ион- структура ^ ^ '* "кол

количество-точек/ята

N ((Л*^ )

ион—сетка* ' количество — огполюв' яшг( / (2)

где ^ион-структ)раЫ) — количество атомов структуры, находящихся на расстоянии с/ от иона,

"иои-тко!^) _ количество узлов сетки, находящихся на расстоянии <1 от иона, N N

каяичеотво-ттек _ КОЛИЧеСТВО уЗЛОВ В СеТКе, "пмчют-олт» _ КОЛИЧвСТВО ЭТОМОВ

заданного типа в структуре, а скобки означает усреднение по всем структурам в

обучающей выборке.

Получив потенциалы для каждого типа атомов структуры, мы можем оценить величину псевдоэнергии в любой точке вокруг белка. Отсюда следует алгоритм предсказания позиции иона: на изучаемую структуру накладывается сетка, в каждом узле которой вычисляется псевдоэнергия связывания иона. Затем, все узлы сетки ранжируются по псевдоэнергии связывания, и выбираются точки с наиболее низкой энергией. При соответствующем шаге сетки такой подход является достаточно эффективным, хотя он требует значительного времени работы процессора. Вычислительная сложность разработанного алгоритма для оценки псевдоэнергии энергии в каждой точке белка, имеет порядок О(тп) , где т - число

атомов в структуре, ал - число точек сетки. Таким образом, при размере сетки 20 А по каждому из измерений и шаге 0.2 А, что соответствует небольшому однодоменному белку,

получаем 0.2*0.2*0.2 точек сетки и, как следствие - необходимость произвести

несколько миллиардов операций. К примеру, белок 1РБ(Е, состоящий всего из 42 аминокислот требует 4 часов расчета при шаге сетки 0.5 А. Проблема решается с помощью распараллеливания вычислений. Такой подход позволил нам ускорить выполнение алгоритма в 15-20 раз.

В число атомов структуры, для которой производится поиск позиции иона, могут быть включены атомы воды, входящие в состав этой структуры (так называемая «гидратная вода»). Как показано в тексте диссертационной работы, включение структурной воды существенно повышает предсказательную силу разработанной программы. Приведенные ниже результаты получены с учетом гидратной воды.

2.1. Локализация ионов и определение типа ионов в структурах белковых глобул. Случай наиболее распространенных ионов (2п2*, Са2*, М§2+)

В данной главе рассматривается применение описанного выше алгоритма к структурам, связывающим ионы цинка, магния и кальция. Это наиболее распространенные ионы в живой природе, они широко представлены в банке данных РБВ. Для каждого из ионов имеется несколько тысяч связывающихся с ними белковых структур.

Для исследования была сформирована несводимая выборка белковых структур. Для получения такой выборки использовалась программа РЕШБека (Спер, НоЬоЬт, 2009). Процент гомологии, при котором две структуры уже считаются гомологичными, был взят равным 35%, что часто используется в качестве порогового значения при исключении гомологичных структур. Полученная таким образом выборка применялась для обучения.

Для тестирования метода, были выбраны 300 структур - по 100 для каждого иона. Эти структуры были исключены из обучающей выборки.

В первом тесте из каждой структуры из тестовой выборки был удален ион и проведено «восстановление» изъятого иона, при этом считался известным его тип. После предсказания было рассчитано среднеквадратичное отклонение между реальным и предсказанным положением иона. На рис. 2 показаны результаты таких тестов для разного шага сетки, использованной при предсказании иона.

Л, — —

т 9

1Р- X

Рис. 2. Математическое ожидание и дисперсия среднеквадратичного отклонения предсказанной позиции иона от экспериментально определенного положения иона в структуре для разного шага сетки, использованной при предсказании иона.

Ещё одна проблема, возникающая в задачах исследования белковых структур - определение типа иона, который с наибольшей вероятностью связывается заданным белком. Для оценки возможностей разработанного алгоритма для решения этой задачи для каждой структуры из тестовой выборки выполнялся расчет псевдоэнергии связывания магния, кальция и цинка, после чего, сравнивались минимумы псевдоэнергии. Структуре приписывался тот тип иона, который соответствовал наименьшему значению изо всех минимумов. На рис. 3. изображена доля корректных предсказаний типа иона, и обоих вариантов ошибочных предсказаний для структур, исходно содержащих ионы каждого из конкретных типов. Как можно видеть из

рисунка, чаще всего наблюдается неверное предсказания иона кальция вместо иона магния. Стоит отметить, что замена магния на кальций довольно часто происходит и в реальных кальцийсвязывающих белках, при увеличении концентрации кальция.

Кальций Магний Цинк

Рис 3. Процент корректных предсказаний для наиболее распространенных ионов в банке данных РОВ. Каждый сектор соответствует количеству структур из тестовой выборки, в которых был предсказан ион соответствующего типа.

Стоит заметить, что большая часть некорректных предсказаний получается из-за отсутствия в конкретной структуре части белковой цепи, которая ответственна за координирование иона. В случае появления структуры с пропуском, если пропущенный фрагмент составляет 1-3 аминокислоты, необходимо воспользоваться различными методами восстановления фрагментов полипептидной цепи, такими как замыкание цикла. Примером структуры с пропуском в аминокислотной цепи могут служить структуры 4DGW (один из белков факторов сплайсинга), 3BFN (один из доменов кинезина) и многие другие.

2.2. Сравнение с известными методами предсказания ионов

Изложенный выше алгоритм был реализован в виде программы Protein-IOn CAlculator (PIONCA). Для оценки эффективности разработанной в рамках диссертационного

исследования программы, было проведено сравнение с известными программами для предсказания положения ионов, такими как FINDSITE-metal (Brylinski, Skolnick, 2011), COFACTOR (Roy, Yang, and Zhang, 2012), WebFEATURE (производит предсказания только для цинка) и Fold-X (Schymkowitz, Rousseau et al., 2005). Результаты такого сравнения приведены в табл 4. При проведении этих тестов размер тестовой выборки был уменьшен, что обусловлено достаточно продолжительным временем работы некоторых программ-конкурентов. Так, программа FINDSITE-metal, в среднем требует на расчет одного белка длиной около 300 аминокислот 25-30 часов, в зависимости от загруженности сервера.

Таблица. 4. Сравнение RMSD для разных программ предсказания ионов в белках. Значок «-»

означает, что программа не нашла иона в заданной структуре.

?DB ID Лиг «она 'IONCA ÍMSD (А) -INDSITE ÍMSD :А) COFACTOR ÍMSD(A) WebFEATURE RMSD(A) -old-X 5MSD А) »DB ID/Тиг юна PIONCA ?MSD (A) -INDSITE ÍMSD :A) COFACTOR ШБ13(А) WebFEATURE 4MSD(A) ;old-X *MSD :A)

1FA5/ZN 0.13 ¡.5 - 0.29 sjwg/mg 1.32 ¡.37 6.17

1FKQ/CA 1.25 1.5 1.28 1.56 1C07/CA 1.6 1.47 1.19 3.78

1AST/ZN 1.06 1.47 1.13 1.51 - lOOl/MG 1.4 1.52 1.81 3.59

2FBX/MG 1.41 1.76 1.14 - LCHC/ZN 1.2 1.8 1.6 3.5

1BMO/CA 1.21 >.70 1.94 J.58 ÍEHV/ZN 1.58 . >2.66 - -

1A8H/ZN >3 4.51 13 0.67 3.92 ÍM13/ZN 1.09 1.98 3.9 3.4 3.71

1AUX/CA >37 1.61 1.57 18.37 1E4B/ZN 1.4 - - 1.48 70.98

1IG5/MG 0.07 1.57 1.69 11.03 1SNZ/CA 1.42 1.68 1.58 1.35

¿CHE/MG d.12 1.53 1.25 p.S8 IDZ9/ZN 1.14 1.36 D.3 1.48 1.19

1LBU/ZN >.13 3.2 3.36 1.15 4BCW/ZN 3.12 1.22 1.04 3.58 1.25

1B66/ZN 1.12 1.58 1.07 1.42 1JDU/CA 1.51 ;.62 1.5 1.44

1BJ3/CA 135 3.65 1.13 1.8 »IIMI/CA 1.86 1.46 1.64

»FGO/CA 3.57 1.44 1.27 1.59 2LVK/CA 1.5 1.75 1.56 э.72

1Т05/СА >.4 3.43 1.9 1GC3/ZN 1.1 3.93 3.6 3.48 10.98

4А42/СА ).47 ).31 2.67 1.68 1IDR/ZN 1.1 1.5 3.86 3.4 3.4

1BZM/ZN >.06 1.73 1.26 J.72 1.11 2LQ6/ZN 1.21 1.76 1.08 3.59 3.84

3U47/ZN 1.18 3.33 3.4 3.33 1.27 1U3.VZN 9.06 3.35 1.00 3.55 3.27

20Е0/СА ).67 ).6 3.89 - 4ggj/zn 1.13 - - 3.53 1.54

Из табл. 4 можно видеть, что лишь три структуры из общего числа 36 были предсказаны нами с худшим результатом, чем у какой-либо из программ-конкурентов.

2.3. Предсказание сайта связывания иона в структуре белка.

Помимо предсказания типа и положения, в данной работе решалась задача о возможности связывания белком иона заданного типа. Для того, чтобы корректно решить эту задачу

необходимо описать характеристики места связывания иона. Очевидно, что в месте посадки иона псевдоэнергия связывания должна быть меньше, чем в любой другой точке структуры. Следовательно, бинарный классификатор, основанный на разработанных потенциалах, должен иметь два порога - по минимальной псевдоэнергии и по максимальной разнице между соседними значениями псевдоэнергии в вариационном ряду. Для проведения теста из банка данных РОВ были случайным образом выбраны 300 структур. Контролировалось, чтобы соотношение количества структур, связывающих и несвязывающих данный тип иона, оставалось таким же как и во всем банке данных РБВ. Для каждой структуры из тестового множества определялись 50 точек с минимальной псевдоэнергией. Разделение связывающих ионы и несвязывающих ионы структур проводилось на основе следующего критерия "меньше ли минимум псевдоэнергии заданного порога" и "больше ли максимальная разница псевдоэнергий между соседними значениями в вариационном ряду заданного порога". Если структура удовлетворяет обоим критериям классификатор дает ответ "да", в ином случае - "нет". ИОС-кривая, для разных порогов минимума псевдоэнергии, приведена ниже.

Рис. 4. ИОС-кривые для различных порогов минимума псевдоэнергии.

Полученные данные о доле истинно-положительных (ТР) и ложно-негативных (Р1Ч)

предсказаний могут быть использованы для расчета ожидаемой доли ложных отклонений (FDR), по формуле

FDR=---

л 4 N.JN„ TP/FN (3)

где Np - количество структур связывающих ион, N„ - количество структур ие связывающих ион. Np и N„ были оценены для каждого типа иона по банку данных PDB. Минимальный уровень FDR составляет 14% для магния, 15% для кальция и 12% для цинка.

2.4 Тестирование метода локализации ионов в апо-формах белков

Достаточно распространенной является ситуация, в которой структура белка получена в условиях, когда он не связывает ион (так называемый апопротеин), в то время как для определения функции белка необходимо знать тип и позицию иона в этой структуре. Стоит заметить, что белок со связанным с ним ионом, может значительно отличаться от белка без включенного иона, причем эти отличия часто относятся именно к структуре участка, непосредственно контактирующего с ионом.

Для тестирования из базы AH-DB (Chang D. Т. Н., и др., 2012), содержащей пары апо-холо структур, выбиралось случайным образом подмножество пар ano- и холо-структур. Далее для них осуществлялось предсказание позиции иона. Все апо-холо пары делились на три класса - с RMSD между ano- и холо-формой менее, чем 0.5 А, с RMSD между ano- и холо-формой более 0.5 А, но менее 1 А, и с RMSD более 1 Á.

Поскольку структура ион-связывающего кармана может сильно меняться при связывании иона, использовался критерий сохранения ряда атомов, находящихся в окрестности сайта связывания в холо-форме, в окрестности предсказанного сайта связывания в апо-форме. В тесте сначала по холо-форме определялись окрестности всех сайтов связывания ионов. Далее выполнялось предсказание положения иона в апо-форме, после чего окрестность полученных сайтов связывания сравнивалась с аналогичными окрестностями в холо-форме.

ZNCAMG ZNCAMG ZNCAMG

Рис. 5. Предсказание корректных сайтов связывания ионов для разных типов ионов в разных классах апо-холо пар. Слева направо - RMSD между ano- и холо-формой меньший 0.5 А, RMSD между ano- и холо-формой больше 0.5 и меньше 1.0 А, и RMSD более 1.0 А. Более светлый цвет соответствует корректным предсказаниям. По вертикальной оси указано количество структур.

Стоит так же отметить, что добавление в модель атомов воды, значительно увеличивает количество корректно предсказанных пар. В табл. 5 приведено количество корректно предсказанных апо-холо пар для различных РМБО между ними.

Таблица 5. Сравнение количества предсказанных апо-холо пар при учете и без учета воды из

изучаемой структуры

Тип иона Количество корректно предсказанных пар с RMSD < 0.5 А Количество корректно предсказанных пар с RMSD > 0.5 Аи<1 А Количество корректно предсказанных пар с RMSD > 1 А

С водой Без воды С водой Без воды С водой Без воды

Са 26 24 20 13 7 6

Mg 29 25 15 11 17 6

Zn 40 36 25 22 13 11

Глава 3. Локализация ионов и определение типа ионов в структурах РНК

В случае РНК мы сталкиваемся с проблемой малой обучающей выборки. Всего в банке данных РОВ, было 1093 структур РНК. Из них, связывающих ион магния - 215, ион натрия -

50, ион калия - 78. Таким образом, методы сглаживания, такие как экспоненциальное сглаживание или ЬОШЕЗЭ, либо малоэффективны, либо совсем бесполезны. Поэтому распределение наблюдаемых контактов оценивалось с помощью программы РВМ (N681, И. М., 1996), которая восстанавливает распределение по заданной выборке в виде взвешенной суммы гауссиан.

Так же из-за малой обучающей выборки, сформировать корректную тестовую выборку не представляется возможным. Поэтому в данной работе мы воспользовались алгоритмом кроссвалидации (в данном случае использовался }асккт!е). В табл. 6 приведены предсказания для некоторых структур РНК из банка данных РОВ.

Таблица 6. Результат предсказания позиции иона для структур РНК.

РЕ1В Ш Тип иона КМЗи между предсказанным и реальным положением (А)

1.1ТО:А N8 1.6

2С91:А М8 1.6

ЗЛОДА ме 1.4

ЗУЛШ:В к 1.7

2МТК:А Мв 1.5

4РС1:А ме 1.0

437В:А № 1.67

20Л):А к 1.21

2Я22:А N3 1.5

ЗР2Х Мё 1.7

11К5:А ме 0.8

В табл. 7 приведены результаты предсказания наиболее вероятного типа связывания для

ионов калия, магния и натрия. Для данного предсказания отбирались структуры, содержащие только один из возможных типов иона. Всего тестировалось 30 структур, по 10 для каждого из рассматриваемых типов иона.

Таблица 7. Результат предсказания типа ионов в структурах РНК. В каждой ячейке таблицы содержится количество структур, в которых был предсказан заданный тип иона.

Исходный типЩредскаэанный: М^

N3

К

тип

Mg

8

2

О

N3

О

8

2

1

8

Обсуждение

Полученные результаты позволяют утверждать, что существует специальный тип локальной конформации остова полипептидной цепи (не зависящей от боковых остатков) и геометрически предопределенный. Конформационная определенность возникает как следствие фиксации двух аминокислотных остатков р-шпильки, непосредственно примыкающих к Р-изгибу. Учитывая, что при замыкании псевдоцикла 6 информационных параметров становятся зависимыми, очевидно, что природа существования такого рода конформации носит топологический характер.

Мы объяснили геометрию изучаемой локальной структуры, но остается вопрос об улучшении энергетических характеристик такой структуры. В результате анализа структу р ЭНЗ-домена с высоким разрешением, мы видим возможность такой компенсации за счет взаимодействия со средой. Действительно, проведенный нами анализ показывает, что почти во всех структурах, где с помощью данных рентгеноструктурного анализа локализованы молекулы воды, наблюдаются близкие контакты (менее 4 А) между молекулами воды и центральной областью бета-изгиба. В структурах бета-шпилек Н'-типа, подобных бета-шпильке БНЗ-домена, так же наблюдаются близкие контакты с ионами цинка и кальция. Для работы с такими элементами среды, как бивалентные ионы в белковых структурах, были построены полноатомные статистические потенциалы. Как было показано, программа, использующая эти потенциалы, практически во всех тестах существенно превосходит альтернативные программы, основанные на самых разных принципах (см. табл. 4). В дальнейшем, разработанный метод допускает обобщение на случай многоатомных лигандов и может быть использован для разработки лекарств т ¡Шсо.

Выводы

1. Проведен конформационный анализ бета-изгибов бета-шпилек II'-типа, в которых реализуется «запрещенная» конформация остова полипептидной цепи. Для этой цели применен метод перебора конформационных параметров с последующей оптимизацией невязки и метод геометрии расстояний.

2. Показана информационная детерминированность бета-изгиба бета-шпильки. В общем случае, единственным решением является «запрещенная» конформация, наблюдаемая в эксперименте. Второе решение, обнаруженное нами, в редких случаях, может быть реализовано.

3. Установлено, на основании анализа банка данных PDB, что в области «запрещенной» информации бета-изгиба бета-шпильки II'-типа всегда присутствует молекулы воды и зачастую ионы, что и способствует энергетической стабилизации этой топологически предопределенной конформации.

4. Разработаны на основе анализа полного банка данных статические потенциалы для описания и предсказания взаимодействия элементов среды с белками и РНК. Показано, что связывание с белком через воду характерно для двувалентных ионов и уменьшается в ряду магний-кальций-цинк.

5. С использованием статистических потенциалов показано, что двувалентные ионы непосредственно взаимодействуют с атомами сахарофосфатного остова, в то время как их взаимодействие с атомами оснований происходит через воду.

Список принятых сокращений AH-DB — Apo-Holo DataBase FBM — Flexible Bayessian Model PDB — Protein DataBank

Список работ, опубликованных по теме диссертации Статьи в рецензируемых журналах:

1. Rahmanov S., Kulakovskiy I., Uroshlev L., Makeev V. Empirical potentials for ion binding in proteins //Journal of bioinformatics and computational biology. - 2010. -T. 8. - N°. 03.-C. 427-435.

2. Л.В. Путляева, M. Чович, A.M. Шварц, K.B. Корнеев, Л.А. Урошлев, В.Ю. Макеев, С.Е. Дмитриев, Д.В. Купраш. Короткие открытые рамки считывания регулируют трансляцию длинной изоформы мРНК гена SLAMF1, кодирующего костимуляторный рецептор CD150 // Биохимия, 2014, том 79, вып. 12, с. 1717 - 1725

3. Л.А. Урошлев, И.Ю. Торшин, Н.Г. Есипова, В.Г. Туманян. Запрещенные конформации полипептидной цепи на примере р-изгиба р-шпильки в БНЗ-домене а-спектрина // Биофизика, 2015, том 60, вып. 1, с. 5-14

Тезисы конференций:

1. Uroshlev L.A., Kulakovskiy I.V., Rakhmanov S.V., Makeev V. M. GPGPU-computing for prediction of small ligand binding sites in protein // International Conference on Bioinformatics of Genome Regulation and Structure\Systems Biology (BGRS/SB'2010), Новосибирск, 2010

2. Uroshlev L.A., Rakhmanov S.V., Kulakovskiy I.V., Makeev V. M. GPGPU-assisted prediction of ion binding sites in proteins // Moscow Conference of Computational Molecular Biology (MCCMB'2011), Москва, 2011

3. Uroshlev L. A., Rakhmanov S. V., Makeev V. J. Statistical potential for identification of 2+ metal cations bound in proteins //FEBS-Congress, Санкт-Петербург, 2013

4. Uroshlev L.A., Makeev V. J., Bemauer J. Determination of sort and position of ions in RNA-ions interaction //Moscow Conference of Computational Molecular Biology (MCCMB'2012), Москва, 2013

5. Uroshlev L.A., Rahmanov S.V., Kulakovskiy I.V., Makeev V.J. Algorithm for prediction ions in

protein structures // Kazan Summer School on Chemoinformatics, Казань, 2013

6. Uroshlev L.A., Makeev V. J. Ion prediction in apo-form of proteins // Integrative and Computational Biology Joint symposium, Барселона, Испания, 2014

7. Uroshlev L.A., Makeev V. J. Prediction of Type of Bound Ion Using Knowledge-based Potentials // PepCon-2014, Далянь, КНР, 2014

8. Uroshlev L.A., Makeev V. J. Prediction of Fe3+ and Cu2+ ions in protein structures // EuroQSAR-2014, Санкт-Петербург, 2014

Подписано в печать 12.08.2015 г. Формат А5 Бумага офсетная. Печать цифровая. Тираж 100 Экз. Заказ № 35561-15-КЦ Типография ООО "Ай-клуб" (Печатный салон МДМ) 119146, г. Москва, Комсомольский пр-кт, д.28 Тел. 8-495-782-88-39