Бесплатный автореферат и диссертация по биологии на тему
Распознавание альтернативных конформаций в кристаллах белков на основе анализа подвижности атомов в процессе свободного уточнения
ВАК РФ 03.01.02, Биофизика

Автореферат диссертации по теме "Распознавание альтернативных конформаций в кристаллах белков на основе анализа подвижности атомов в процессе свободного уточнения"

005060494

Соболев Олег Васильевич

РАСПОЗНАВАНИЕ АЛЬТЕРНАТИВНЫХ КОНФОРМАЦИЙ В КРИСТАЛЛАХ БЕЖОВ НА ОСНОВЕ АНАЛИЗА ПОДВИЖНОСТИ АТОМОВ В ПРОЦЕССЕ СВОБОДНОГО УТОЧНЕНИЯ

03.01.02-Биофизика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

з о май т

Пущино-2013

005060494

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте математических проблем биологии Российской академии наук

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

доктор физико-математических наук, профессор

Лунин Владимир Юрьевич

доктор физико-математических наук, член-корреспондепт РАН, профессор Фннкелыптейн Алексей Витальевич (зав. лаб. Физики белка ИБ РАН, г. Пущино)

кандидат физико-математических наук Качалова Галина Сергеевна (с.н.с. ИНБИ РАН, г. Москва)

Федеральное государственное бюджетное учреждение науки Институт кристаллографии им. A.B. Шубникова Российской академии наук, г. Москва

Защита диссертации состоится «/¿> » 2013 года в ч. О0 мин.

на заседании совета Д 002.093.01 по защите диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук при Федеральном государственном бюджетном учреждении науки Институте теоретической и экспериментальной биофизики Российской академии наук по адресу: 142290, Московская область, г. Пущино, ул. Институтская, 3.

С диссертацией можно ознакомиться в Центральной библиотеке НЦБИ РАН по адресу: 142290, Московская область, г. Пущино, ул. Институтская, 3.

Автореферат разослан « Ц- » «/¿¿2^_ 2013 года.

Ученый секретарь диссертационного совета, кандидат физико-математических наук

Ланина Н.Ф.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Идентификация фрагментов полипептидной цепи белка, присутствующих в исследуемом объекте в нескольких альтернативных конформациях, является важным шагом в процессе определения атомной структуры белка методом рентгсноструктурного анализа. В то же время, этот этап принадлежит к числу наиболее трудоемких и наименее автоматизированных этапов рентгеновского исследования и требует существенных затрат времени высококвалифицированных исследователей.

Прогресс в техниках кристаллизации значительно увеличил количество кристаллов, дающих экспериментальные данные атомного разрешения. Карты распределения электронной плотности, полученные для таких кристаллов, позволяют обнаруживать детали структуры, которые не видны при более низком разрешении. Одной из таких деталей является одновременное присутствие в исследуемом кристалле белка нескольких альтернативных конформаций (АК) отдельных боковых цепей либо других фрагментов полипептидной цепи. Присутствие АК отчасти нарушает кристаллический порядок, но является распространенным явлением при работе с кристаллами биологических макромолекул. На данный момент единственным способом поиска АК является трудоемкий визуальный анализ карт распределения электронной плотности в окрестности каждого остатка. В то же время, включение в атомную модель АК увеличивает точность фаз структурных факторов, рассчитанных с использованием такой модели, что приводит к повышению качества рассчитанных карт распределения электронной плотности во всем объеме элементарной ячейки и создает возможность определения дополнительных деталей структуры, не связанных непосредственно с АК. Кроме того, часто наличие АК связано с механизмом функционирования молекулы. В связи с этим, разработка методов диагностики присутствия АК в кристаллах белков является актуальной задачей.

Целью данной работы было создание формализованной компьютерной методики поиска фрагментов молекулы исследуемого белка, для которых

1

наиболее вероятно наличие альтернативных конформаций. В качестве индикатора наличия АК было выбрано поведение координат атомов модели белка в процессе свободного кристаллографического уточнения. Результатом поиска является список аминокислотных остатков, с наибольшей вероятностью присутствующих в исследуемом кристалле в альтернативных конформациях. Были поставлены следующие задачи:

1. Анализ взаимосвязи стабильности фрагмента модели в процессе свободного уточнения и наличия в нем АК для серии структур, депонированных в Protein Data Bank (PDB).

2. Проведение тестового свободного уточнения для наиболее надежно определенных белковых структур, отобранных из банка белковых данных (PDB), и формирование баз данных по подвижности координат атомов.

3. Выявление характеристик фрагментов структуры, наиболее сильно влияющих на подвижность этих фрагментов.

4. Разработка процедур принятия решений о необходимости введения в модель альтернативных конформаций для конкретного остатка на основе анализа величин атомных сдвигов в свободном уточнении. Анализ эффективности разработанных процедур.

5. Сравнение эффективности процедур предсказания альтернативных конформаций на основе анализа сдвигов атомов и процедур, основанных на других характеристиках модели: температурных факторах; значениях электронной плотности в комбинированных синтезах Фурье электронной плотности.

6. Реализация разработанной методики обнаружения АК в виде компьютерных программ; публикация программ.

Научная новизна. Все результаты, полученные в ходе данного исследования, являются новыми. Была изучена подвижность координат атомов в ходе свободного кристаллографического уточнения, разработаны процедуры идентификации остатков, с наибольшей вероятностью присутствующих в

альтернативных конформациях, разработанные методики реализованы в виде компьютерных программ.

Личный вклад. Представленные в диссертационной работе результаты получены лично соискателем.

Практическая значимость. Предложенные в работе методы анализа модели белковой структуры, базирующиеся на ее подвижности в свободном уточнении, дают исследователям новый инструмент как для выявления наиболее подвижных участков структуры, которые могут играть существенную роль в механизмах функционирования белка, так и для оценки надежности уже определенных структур. Разработанные методы идентификации аминокислотных остатков, которые с наибольшей вероятностью присутствуют в альтернативных конформациях, позволят снизить временные затраты на визуальное исследование карт распределения электронной плотности и, в ряде случаев, облегчить интерпретацию сложных фрагментов карт. Компьютерные программы, реализующие разработанные методики, доступны по адресу www.impb.ru/Imc/programs/acjrediction/.

Апробация работы. Основные результаты, изложенные в диссертации, были представлены автором в виде устных докладов на 27-й Европейской кристаллографической конференции (Берген, Норвегия, 2012), XXII Конгрессе и генеральной ассамблее международного союза кристаллографов (Мадрид, Испания, 2011), IV Съезде биофизиков России (Нижний Новгород, 2012), II и IV Международных конференциях «Математическая биология и биоинформатика» (Пущино, 2008, 2012), 12,15,16,17 Международных школах-конференциях молодых ученых «Биология - наука XXI века» (Пущино, 2008, 2011, 2012, 2013), Международной конференции молодых ученых «Экспериментальная и теоретическая биофизика'12» (Пущино, 2012), а также в виде стендового доклада на 40-й Международной кристаллографической школе (Эриче, Италия, 2008).

Исследования выполнены при поддержке РФФИ:

Грант РФФИ 10-04-00254-а «Исследование частично разупорядоченных больших макромолекулярных комплексов методами рентгеновской дифракции» в 2010-2012 гг.

Грант РФФИ 12-04-31096-мол_а «Разработка объективных методов идентификации альтернативных конформаций аминокислотных остатков в кристаллах белков в процессе рентгеноструктурного исследования» в 20122013 гг.

Грант РФФИ 12-04-09433-моб_з, «Научный проект "Анализ величин атомных сдвигов в процессе свободного уточнения позволяет выявлять альтернативные конформации боковых цепей" для представления на научном мероприятии "27-я Европейская кристаллографическая конференция"» в 2012 г.

Грант РФФИ 11-04-09516-моб_з, «Участие в XXII Congress and General Assembly of the International Union of Crystallography» в 2011 г.

Публикации. По теме диссертации опубликовано 16 работ: 5 статей в рецензируемых научных журналах, из них 4 статьи в журналах, рекомендованных ВАК, 11 тезисов докладов.

Структура и содержание диссертации. Диссертация состоит из введения, шести глав, содержащих описание методов и результатов работы, основных результатов и выводов, списка литературы из 117 наименований. Объем диссертации составляет 102 страницы, 26 рисунков и 15 таблиц.

Основные положения, выносимые на защиту:

1. Анализ подвижности координат атомов в процессе свободного кристаллографического уточнения позволяет идентифицировать фрагменты полипептидной цепи, кристаллизованные в альтернативных конформациях.

2. Подвижность координат атомов в процессе свободного кристаллографического уточнения зависит от наличия или отсутствия альтернативных конформаций, принадлежности к главной или боковой цепи, положения в белковой глобуле, качества атомной модели

4

(кристаллографического Л-фактора), индивидуальных особенностей программ кристаллографического уточнения. 3. Процедуры, использующие пороговые критерии либо критерии, основанные на статистическом правдоподобии, для анализа результатов свободного уточнения позволяют формализовать процесс предсказания наличия альтернативных конформаций у аминокислотного остатка.

СОДЕРЖАНИЕ РАБОТЫ Во введении дается краткое описание изучаемых в работе задач, обосновывается актуальность темы диссертации, формулируются цели и задачи работы, указывается новизна и практическая значимость работы. Описывается структура диссертации и ее краткое содержание по главам.

Первая глава посвящена обзору литературы, связанной с основными понятиями и инструментами, которые будут использованы в данной работе.

Теоретически, в идеальном кристалле, все присутствующие копии молекулы должны быть строго идентичны. Это требование не выполняется в реальных кристаллах белков, используемых в рентгеновском эксперименте. Ввиду существенной подвижности отдельных участков полипептидной цепи некоторые группы атомов (в особенности, боковые цепи, обращенные в растворитель) могут присутствовать в различных положениях (альтернативных конформациях) в разных копиях молекулы в кристалле. На данный момент изучаются случаи двух, реже трех альтернативных конформаций отдельного остатка, которые включаются в модель белка с соответствующими весами (коэффициентами заселенности), отражающими частоту встречаемости конформаций в исследуемом кристалле.

В разное время предпринимались попытки формализовать процедуру поиска плохо упорядоченпых участков модели, в том числе и альтернативных конформаций. Предположение о том, что плохо упорядоченные участки модели сильно искажаются в процессе свободного уточнения, было высказано Даутером и коллегами в 1992 году при работе над структурой рубредоксииа

5

разрешения 1 Л [1]. При наличии данных такого качества удалось уточнить хорошо упорядоченную часть структуры без стереохимических ограничений и получить приемлемую геометрию. Тем не менее, разупорядоченные или подвижные участки требовали локальных ограничений.

В рамках разработки автоматической системы встраивания модели в известную электронную плотность Xsohe, группой под руководством Бедема была также разработана автоматическая процедура поиска и построения альтернативных конформаций qFit [2].

Программа кристаллографического уточнения SHELX [3] помечает атомы с сильной анизотропией ADP предупреждением «may be split», указывая атомы, на которые необходимо обратить внимание. Тем не менее, в руководстве пользователя автор программы отмечает, что далеко не все такие атомы должны быть включены в модель с альтернативными конформациями.

Кристаллографическое уточнение - процесс приведения какой-либо начальной модели в максимально возможное соответствие с экспериментальными данными. Даже при наличии данных высокого разрешения этот процесс является нестабильным. Для решения этой проблемы в целевую функцию вводятся дополнительные штрафные функции. Эти функции требуют соответствия стереохимических характеристик (длины валентных связей, величины валентных и двугранных углов, и т.д.) модели тем, которые были ранее получены для "малых" молекул. Уточнение без использования стереохимических ограничений называется «свободным».

Далее приводится краткий обзор основных пакетов и комплексов программ, используемых на данный момент для определения структуры белка и кристаллографического уточнения. В них входят программы SHELX, REFMAC5 [4] из пакета CCP4,phenix.refme [5] из пакета PHENIX.

Заканчивается данная глава обзором методов оценки точности предсказаний, которые будут использоваться в работе, так как предложенные процедуры принятия решений могут рассматриваться как бинарные классификаторы. Основными параметрами, характеризующими их качество,

б

являются вероятность ошибки первого рода (false positive rate, вероятность ложноиоложительного ответа, уровень значимости), вероятность ошибки второго рода (false negative rate, вероятность ложпоотрицателъного ответа, мощность), величина положительного предсказательного значения (PPV) и отрицательного предсказательного значения (NPV). В случаях, когда классификатор имеет некоторый параметр для настройки, вероятности ошибок первого и второго рода, равно как и PPV и NP V становятся конкурирующими. В таких случаях удобно использовать интегральные характеристики, например, сбалансированную точность (ЬАСС), которая вычисляется как среднее арифметическое от уровня значимости и мощности.

Построение ROC-кривой (Receiver Operating Characteristic, операционная характеристика приемника) - еще один инструмент для организации и выбора классификаторов на основе их производительности. График ROC-кривой является двухмерным графиком, на котором вероятность верноположителыюго срабатывания откладывается по оси Y, а вероятность ложоноположительного срабатывания - по оси X. График показывает зависимость «выгоды» (доля верноположительных срабатываний) от «цены» (доля ложноположительных срабатываний). Если имеется два классификатора, для которых можно построить ROC-кривую, то их удобно сравнивать по величине площади под этой кривой. Такая величина называется AUC (площадь под кривой, Area Under Curve). Величины ЬАСС и AUC, примененные в данной работе используются также в соревнованиях CASP.

Вторая глава. Различия в поведении координат атомов в процессе свободного уточнения, отмеченные ранее рядом авторов, позволили выдвинуть гипотезу о том, что эти различия могут быть использованы как индикатор наличия или отсутствия альтернативных конформаций в исследуемой кристаллической структуре для данного участка. Использование данных высокого разрешения обеспечивает стабильность хода уточнения для атомов, имеющих строго фиксированное положение в кристалле. Наоборот, существенное изменение положения центра атома в ходе уточнения является

7

индикатором неоднозначности положения этого атома в кристалле, что может вызываться наличием альтернативных конформаций для соответствующего участка структуры.

Для проверки этой гипотезы, структуры 11^7 и 1г6], взятые из Банка белковых данных (РПВ), были уточнены без стереохимических ограничений. В результате уточнения структуры 11^7 при разрешении 1.2А основная часть атомов почти не изменила своего положения. Исключением стали несколько остатков, со значительными сдвигами и большими искажениями в геометрии. Сравнение с депонированной в банк структурой показало, что именно для этих остатков авторами структуры были введены альтернативные конформации (рис. 1).

Результаты уточнения структуры 1т6] при 0.73 А оказались аналогичными, что позволило сделать вывод о применимости метода на более высоких разрешениях. В то же время результаты уточнения структуры 11^7 при ограниченном наборе экспериментальных данных (1.5-2.0 А) показали, что метод постепенно теряет свою предсказательную силу при уменьшении разрешения. При 1.5 А анализ диаграмм несколько затруднен, а при разрешении 2.0 А метод полностью теряет свойство выделять остатки, для которых авторы структуры ввели АК.

В результате проведенного исследования был сделан вывод о том, что анализ атомных сдвигов, возникающих в процессе свободного уточнения, может быть использован на ранних этапах уточнения структур при наличии данных атомного разрешения в качестве формальной процедуры для выявления остатков, для которых наиболее вероятно наличие альтернативных конформаций. Эти остатки должны быть в первую очередь проверены с помощью карт распределения электронной плотности.

В третьей главе описывается выборка и обработка 203 надежно определенных белковых структур из РОВ. Структуры были сгруппированы в 2 набора по разрешению экспериментальных данных. Было проведено их свободное уточнение с помощью программ ркешх.гс/ше и ИЕРАМС5 и

8

проанализированы полученные атомные сдвиги. Были определены характеристики, значительным образом влияющие на подвижность атомов.

Для каждой модели, выбранной из РОВ, была проведена подготовка, состоящая из трех этапов: подготовка модели, тестовое свободное уточнение (ТСУ) и анализ величин атомных сдвигов. Целью первого этапа было «восстановить» модель в том виде, в котором она могла находиться до введения альтернативных конформаций. Для этого из модели удалялись введенные авторами модели альтернативные конформации, обладающие меньшим коэффициентом заселенности, а оставшимся атомам задавался единичный коэффициент заселенности. Затем проводилось стандартное уточнение программой рИетх. ге/те и ПЕР МЛ С5, для того, чтобы атомы заняли

I

0.8

■<

^ 0.6

х

а

| 0.4

о

<

0.2 О

1000 1010 1020 1030 1040 1050 ЮСЛ 1070 Номер «сгагка

Рис. 1. Атомные сдвиги для 1Ь§7. Каждая колонка синих точек показывает сдвиги атомов (с!г) в одном остатке. Остатки, для которых авторы структуры ввели альтернативные конформации, обведены прямоугольниками разных цветов. Цвет отображает коэффициент заселенности. Черные треугольники справа отображают уровни <£//->+N0, где <с1г> - средний сдвиг атомов всей структуры, а - среднеквадратичное отклонение сдвигов, N=0,1,2,3. Нумерация остатков взята из РОВ файла. Красная линия показывает уровень <с!г>+За.

| »|1г А 50. .40 40..30 ЛЗО. 0 Д <11г>+Мст |

» ♦ А

♦ ♦ Н». ' Я ; ♦ ♦ А

Таблица 1. Статистика моделей, выбранных из РЭВ. В скобках указано значение для программы ИЕРМЛСЗ, если оно отличается.

База 1 База 2

Условия

Разрешение (А) 1.1<(1<1.2А (1<1.1А

Значения К-факторов

максимальное Идаогк 0.13 0.12

максимальное Штее 0.16 0.15

Статистика Выбрано структур из РОВ Структур подготовлено для тестов Количество неводородных атомов Количество атомов в АК 189 135(127) 334985 (243079) 20510(14851) 102 68 (59) 140185(122566) 16457(12649)

положения, характерные для модели без АК. На втором этапе проводилось тестовое свободное уточнение каждой модели с помощью программ рИетх.ге/те (3 макроцикла) либо ИЕРМАС5 (10 циклов). На последней стадии были рассчитаны атомные сдвиги для всех неводородных атомов структуры. Общее количество выбранных моделей для разных программ, и количество моделей, для которых удалось провести расчеты с использованием специально разработанных сценариев, приводятся в таблице 1.

Величины атомных сдвигов, полученные в результате ТСУ были собраны в базы данных вместе с дополнительной информацией: код структуры в РЭВ, типы остатков и атомов, значение /¿-фактора, значение ЛОР и электронной плотности в центре атома на взвешенном синтезе Фурье электронной плотности (2тРоЬз-ОРса|с), рассчитанными на первой стадии подготовки моделей.

На рисунке 2а представлены эмпирические распределения величин сдвигов координат атомов, для атомов, находившихся в единственной конформации (ЕК) и в АК в исходных моделях. Эти распределения имеют отличия, которые дают возможность различать эти типы атомов с помощью изучения их сдвигов в ТСУ.

Кроме того, выяснилось, что величины атомных сдвигов атомов главной цепи оказались в среднем меньше величин атомных сдвигов атомов боковых

цепей; величины атомных сдвигов атомов, расположенных внутри белковой глобулы, оказались меньше, чем атомов, расположенных на поверхности белковой глобулы (рис. 2Ь). Этот же рисунок демонстрирует, что для всех типов атомов средние атомные сдвиги в ТСУ увеличиваются с ростом Л-фактора. Для учета этого различия, атомы внутри классов были дополнительно поделены на несколько групп в соответствии со значением Я-фактора, полученного для модели перед ТСУ.

Установленная разница в поведении атомов, находящихся в АК и в ЕК дает возможность разрабатывать автоматические процедуры для анализа величин атомных сдвигов. Найденные параметры атомов, влияющие на их подвижность, должны быть приняты во внимание при разработке таких процедур. Сопоставление результатов ТСУ, полученных программами ркемх.ге/те и ЯЕРМАСЗ выявило зависимость величин атомных сдвигов от

(а) (Ь)

Рис. 2. Распределение атомных сдвигов ЕК-атомов (пунктирная линия) и АК-атомов (сплошная линия) (а), средние атомные сдвиги ЕК-атомов в свободном уточнении в зависимости от Л-фактора структуры отдельно для разных типов атомов: атомы главной цепи, расположенные снаружи (ГН) и внутри (ГВ) белковой глобулы, атомы боковых цепей, расположенные снаружи (БН) и

внутри (БВ) белковой глобулы (Ь). Использовалась база I,phenix.refine.

11

используемой программы уточнения. Этот факт также был принят во внимание при дальнейшей разработке автоматических процедур для анализа величин атомных сдвигов.

В четвертой главе описываются разработанные процедуры принятия решений на основе автоматического анализа атомных сдвигов в процессе ТСУ, оценивается их эффективность при использовании для уточнения программ ркепЬс.ге/те и КЕРМАС5. При разработке процедур были учтены параметры атомов, влияющие на их подвижность. В рамках разработанной методики для анализа конкретной модели предлагается применять ТСУ, состоящее из 3 макроциклов свободного уточнения с помощью программы ркегйх.гфпе или 10 циклов программы КЕРМАС5 с последующим расчетом величин атомных сдвигов, т.е. расстояния между позициями центров атомов перед и после уточнения. Набор величин атомных сдвигов является результатом ТСУ.

В ТСУ каждый атом получает свой сдвиг. Для рассмотрения вопроса об альтернативных конформациях в терминах аминокислотных остатков удобно ввести интегральную характеристику, которая будет показывать степень мобильности некоторой группы атомов. В данной работе использовались средний и максимальный атомные сдвиги в группе атомов.

Для автоматической классификации каждого остатка как находящегося в единственной конформации (ЕК) или в альтернативных конформациях (АК) было использовано несколько процедур принятия решений. Эти процедуры похожи, но отличаются в деталях.

Первым предлагаемым способом формирования списка остатков, для которых необходимо введение в модель АК, является сравнение интегральной характеристики искажения остатка, полученной в ТСУ, с некоторым пороговым значением. Если интегральная характеристика искажения больше порогового значения, то остаток классифицируется как АК, иначе как ЕК. Пороговое значение - это параметр процедуры принятия решения, и оно может быть подобрано в процессе предварительного анализа построенной базы данных таким образом, чтобы получить наилучшее качество предсказания.

12

Другой тип процедур принятия решений основан на принципе максимального правдоподобия. В данном подходе используются два эмпирических распределения вероятности интегральной характеристики. Первое распределение соответствует остаткам в ЕК, второе - остаткам в АК. Эти распределения были получены эмпирически из баз данных, описанных в гл. 3. Для выработки решения относительно конкретного остатка, рассчитываются интегральная характеристика и вероятность ее получения для остатков в ЕК и АК. Если вероятность получить такое значение интегральной характеристики больше для случая АК, то остаток классифицируется как АК, в противном случае, он классифицируется как ЕК. Дополнительная модификация критерия, основанного на принципе максимального правдоподобия, использует весь набор атомных сдвигов какого-либо остатка вместо интегральной характеристики.

Расчет порогов и эмпирических распределений проводился отдельно для разных типов атомов и программ уточнения. Всего было рассмотрено пять процедур принятий решений: сравнение с пороговым значением средник (ср_пор) или максимальных (макс_пор) величин атомных сдвигов, процедуры, использующие принцип максимального правдоподобия, основанные на анализе средних (ср_правд), максимальных (макс_правд) и индивидуальных (инд_правд) атомных сдвигов.

К описанным выше процедурам принятия решений, могут быть применены стандартные статистические методы оценки качества. Для подбора параметров процедур и оценки их качества каждая база была поделена на две равные части. Первая часть (обучающая выборка) использовалась для поиска порогов и расчета эмпирических распределений величин интегральной характеристики сдвигов. Вторая часть (тестовая выборка) использовалась для оценки качества процедур в предположении, что назначенные в РБВ ЕК и АК являются «правильными ответами».

Для оценки качества критериев использовались вероятности ошибок первого и второго рода (fp rate, fn_rate), положительное и отрицательное предсказательные значения (PPV, NPV)-.

f - FP f — FN СП

TVrate - TN+FpJnrate ~ Tp+FN- V '

PPV = -2—, NPV = . (2)

TP+FP' TN+FN

где TP (true positive) - количество правильно предсказанных AK, FP (false positive) - количество неправильно предсказанных AK, TN (true negative) -количество правильно предсказанных EK, FN (false negative) - количество неправильно предсказанных EK.

В данном случае РР V показывает долю правильных предсказаний среди всех предсказанных AK, a NPV - долю правильных предсказаний среди всех предсказанных ЕК.

В пороговых критериях величины ошибок первого и второго рода, как и значения PPVи NPVявляются конкурирующими и зависят от значения порога. Для удобства оценки эффективности процедур принятия решений использовалось значение «сбалансированной точности» ЬАСС:

ЬАСС ~~ (3)

При использовании пороговых критериев достигаемая точность ЬАСС зависит от выбранного значения порога. Порог выбирался так, чтобы максимизировать величину ЬАСС, рассчитанную по обучающей выборке.

Другой интегральной характеристикой была выбрана площадь под ROC-кривой {AUQ. Это значение может быть посчитано только для пороговых критериев. Большая площадь под ROC-кривой значит, что возможно выбрать порог таким образом, чтобы получить одновременно маленькие вероятности ошибок первого и второго рода. В нашем случае значение AUC эквивалентно вероятности получить большее значение интегральной характеристики для остатка в АК, чем для остатка в ЕК, если два таких остатка выбраны случайно.

На рис. 3 представлены ROC-кривые для четырех типов остатков, полученные для программы REFMAC5. Величины ошибок, полученные для

14

критериев, основанных на максимальном правдоподобии и наилучшее значение порога показаны маркерами.

Аналогичные результаты были получены для программы phenix.refine.

Тестирование процедур принятия решений показало, что, как и ожидалось, результаты носят статистический характер, и процедуры допускают ошибки обоих типов (ложноположительные и ложноотрицательные срабатывания).

Было протестировано пять процедур принятия решений, для которых были получены схожие результаты, что свидетельствует об устойчивости разработанной методики. Полученные результаты тестирования для двух разных программ кристаллографического уточнения хорошо согласуются друг с другом и позволяют сделать вывод о возможности использования как phenix.refine так и REFMAC5 для поиска остатков, которые с наибольшей вероятностью находятся в альтернативных конформациях.

Качество предсказания, достигнутое для разных участков структуры, отличается. Наилучшие предсказания были получены для боковых групп, находящихся внутри белковой глобулы. Предсказания для боковых цепей, находящихся на поверхности, оказались несколько хуже. Для главной цепи качество предсказаний оказалось ниже, чем для боковых цепей. Это может объясняться повышенной сложностью введения АК для главной цепи по сравнению с боковыми, что приводит к недооценке количества АК главной цепи в структурах, депонированных в PDB. Это вызывает рост величин как ложноположительных, так и ложноотрицательных ошибок.

Атомные сдвиги - это не единственный параметр, который, потенциально, позволяет судить о том, находится ли остаток в ЕК или АК. Обычная практика для оценки степени разупорядоченности в структуре состоит в оценке значений изотропных параметров смещения (ADP), которые рассчитываются программами уточнения для каждого атома.

0.6

'0.4

0.2 •

гв

/ ср_пор

/ — — макс_пор

/ □ ср_правд

макс_правд

♦ инд_правд

• порог

0.6

0.4

0.2

ГН

ср_пор

— — макс_пор

п ср_правд

А максправл

♦ инд_правд

• порог

0.2

0.4 0.6 ГРга1е

(Ь)

0.4

0.2 -К

0

ср_пор

— — макс_пор

□ срправд

макс_правд

♦ нндправд

• порог

0.6

'0.4

0.2

БН

/

/ — српор

/ — — макс_пор

/ п ср_правд

/ А макс_правд

/ ♦ инд_правд

Г • порог

0

0.2

0.4 0.6 П*га1е

(с)

0.2

0.4 0.6 ГРпИе

Рис. 3. Результаты тестирования критериев (база 1, КЕРМАС5, тестовая выборка, 0.099 < Я,„,г* < 0.129) для разных типов атомов. Сплошные и пунктирные линии показывают ЯОС-кривые для пороговых критериев на основе анализа средних (српор) и максимальных (макс_пор) атомных сдвигов соответственно. Прямоугольники, треугольники и ромбы показывают результативность критериев, основанных на максимизации правдоподобия средних (ср_правд) и максимальных (макс правд) атомных сдвигов и индивидуальных атомных сдвигов (инд_правд). Круглым маркером (порог) показан оптимальный порог для порогового критерия на основе анализа средних атомных сдвигов.

Еще одним параметром, который может быть использован как индикатор разупорядоченности, является значение электронной плотности в центрах атомов на комбинированном синтезе Фурье "2тРоЬз-ВРса1с", посчитанные в данной работе с помощью программыркетх.тос1е1_уз_с1а1а.

Процедуры принятия решений, основанные на анализе значений АИР и электронной плотности, были разработаны и протестированы так же, как и процедуры, основанные на анализе величин атомных сдвигов. Единственное отличие состояло в том, что теперь процедуры работали не со значениями атомных сдвигов, а с величинами АИР или электронной плотности, и не требовали проведения ТСУ. ЯОС-кривые, полученные для процедур принятия решений на основе анализа значений атомных сдвигов, АВР и значений электронной плотности представлены на рис. 4.

РРгак

Рис. 4. ЯОС-кривые для процедур принятия решений на основе средних атомных сдвигов («с!г»; сплошная линия), значений АИР («АИР»; пунктирная линия) и значения электронной плотности на карте 2тР0-ВРс («сЬ21»; штрих-пунктирная линия) (боковые внутренние остатки, база I, рИепа.ге/те, тестовая выборка, 0.0961 < Л,™,*<0.1278).

В Таблице 2 представлены значения величин ЬАСС для всех типов критериев, посчитанных при использовании атомных сдвигов, величин ЛОР и величин электронной плотности с помощью программырЬепЬс.ге/те.

Таблица 2. Значения ЬАСС для различных критериев и групп атомов при использовании программы рИепЬс.геАпе. Наибольшее значение в каждой колонке выделено жирным шрифтом.

ГВ ГН БВ БН Г Б

dr ср_пор 0.6286 0.6020 0.7683 0.7175 0.6145 0.7273

макс_пор 0.6230 0.5961 0.7471 0.7071 0.5937 0.7065

ср правд 0.6298 0.6227 0.7749 0.7199 0.6251 0.7658

макс правд 0.6282 0.6080 0.7590 0.7162 0.6163 0.7517

инд_правд 0.6342 0.6159 0.7687 0.7085 0.6276 0.7489

ADP ерпор 0.5916 0.5500 0.6832 0.6455 0.5653 0.6488

макс_пор 0.5959 0.5477 0.7010 0.6540 0.5657 0.6639

ср_правд 0.5930 0.5628 0.6802 0.6685 0.5860 0.6869

макс_правд 0.6062 0.5673 0.7058 0.6718 0.5972 0.7000

иид_правд 0.5927 0.5666 0.6775 0.6560 0.5797 0.6765

ds21 ср_пор 0.5975 0.5653 0.6818 0.6386 0.5786 0.6486

махе пор 0.5897 0.5641 0.6378 0.6037 0.5796 0.6205

ср_правд 0.5955 0.5760 0.6915 0.6446 0.5854 0.6816

макс_правд 0.6064 0.5692 0.6376 0.6026 0.5857 0.6478

инд_правд 0.6037 0.5819 0.6921 0.6390 0.5905 0.6719

Анализ приведенных данных показывает, что, хотя процедуры принятия решений на основе анализа значений ADP и электронной плотности и имеют некоторую предсказательную силу, наилучшее качество предсказания достигается процедурами на основе анализа значений атомных сдвигов.

В пятой главе описаны программы, реализующие предложенный подход к анализу результатов ТСУ, и приведен пример их работы с использованием структуры liqz с разрешением экспериментальных данных 0.92 А. Программа АС_prediction реализует процедуры принятия решений, описанные в предыдущей главе, и генерирует список наиболее «подозрительных» остатков на основе анализа результатов ТСУ (табл. 3). Программа shift_plot строит

диаграммы атомных сдвигов, описанные в главе 2, для визуального анализа степени упорядоченности различных участков структуры (рис. 5).

Таблица 3. Фрагмент текстового вывода программы ACprediction для структуры liqz (тестовое свободное уточнение проведеноphenix.refine).

ac_prediction ver. 1.1 (09.11.2012) «¡пропущена вспомогательная информация> Total residues read: 81

Candidates for side chain alternative conformation: tres chain

28 A mean_dr/thr: 2.1157; mean_dr: 0.0665 26 A mean_dr/thr: 1.3576; mean_dr: 0.0427 Total: 2 All done.

ЛН atoms. Chain A

0.10 V r.

c;

...... ..................•-...!......... ..............................i ........ .......i......... ....... i ■

...!....... ' i...... ..........|................J........ .........;......... ....... L

■ ......... : ■ ........ ................. ......] ■ "" ..... ;...... ..... !

"!....... - - i...........i • г..... ........r:................;■■-'...... .......■(....... .........r-V ........1 •

I 10 SO 30 40 b'l to W 80

SM« cMn '

>. Cbain A

i

.....i.

; .J ... i

~1

....... г.................f- -

. .. i................!- ■

.......i ................i ...

I

::i...-'b.~i': .•■'l.i ! «I :.i.n.tl: .Лп8^'».;;.»!^».

0.035 0030 1&СЛ wo.oie 10.015 0.010

• t • •' *

Рис 5. Диаграмма атомных сдвигов, полученная программой shift_plot для структуры liqz (тестовое свободное уточнение проведено phenix.refine).

В данном случае диаграмма атомных сдвигов и список остатков, полученный программой ACprediction, позволяют сделать вывод о необходимости проверки как минимум остатков Asp26 и Asp28. Анализ карт распределения электронной плотности подтвердил, что для этих остатков необходимо ввести альтернативные конформации, что и было сделано авторами структуры. Авторы структуры также ввели АК для остатков Glu45, Asp52, Pro72 и Рго77. Для трех из них (Glu45, Asp52 и Рго72) были получены довольно высокие колонки на диаграмме атомных сдвигов (рис. 5).

Программы и документация доступны для скачивания по ссылке http://www.impb.ru/lmc/programs/ac_prediction.

В шестой главе приводится анализ альтернативных конформаций с использованием разработанных подходов на примере серии структур лизоцима белка куриного яйца, определенных с высоким разрешением. В первой работе кристаллическая структура лизоцима разрешения 0.9 А исследовалась при комнатной (PDB код 41zt) и криогенной (PDB код 31zt) температурах [6]. Во второй работе исследовалась структура того же белка при криотемпературе и субатомном разрешении 0.65 A (PDB код 2vbl) [7]. Общее количество остатков в этом белке 129.

При комнатной температуре альтернативные конформации сложнее вводить в модель, так как они менее выражены, чем при криотемпературе. Кроме того, АК становятся более заметны при высоком разрешении. В модели 41zt 14 остатков содержат АК, в модели 31zt таких остатков 28, а в модели 2vbl 49 остатков с АК. Для структуры 41zt было проведено тестовое свободное уточнение без удаления из модели альтернативных конформаций обеими программами (phenix.refine и REFMAC5), результаты проанализированы предложенными программами shiftplot и ACprediction. Программы выявили больше остатков, для которых вероятно наличие АК, чем было введено авторами модели. Тем не менее, большинство остатков, которые были выделены программами и не были введены в модель 41zt, были введены в модель 2vbl, решенную при криотемпературе и более высоком разрешении.

20

Таких остатков оказалось 30. Кроме того, для 8 остатков программа АС_ргесИсИоп выдала значение тсап_сЗгЛЬг больше 1 при анализе результатов уточнения обеих программ, то есть определила их как находящиеся в АК, но альтернативные конформации для них не были включены ни в одну из моделей. Анализ карт распределения электронной плотности для этих остатков показал, что они являются плохо упорядоченными, и заслуживают повышенного внимания при решении структуры, несмотря на то, что карты распределения электронной плотности не позволяют ввести АК для этих остатков.

В предыдущих главах такие ответы процедур оценивались как ложноположительные срабатывания, что снижало качество критериев. Приведенный пример показывает, что, вероятно, процедуры более чувствительны к разупорядоченности отдельных остатков, и способны выявлять плохо упорядоченные остатки, которые плохо видны на картах распределения электронной плотности.

Выводы:

1. Разработанная методика диагностики атомной модели белка позволяет повысить эффективность процесса определения структуры биологических макромолекул методом рентгеноструктурного анализа, предоставляя исследователю объективные методы идентификации фрагментов структуры, присутствующих в альтернативных конформациях.

2. При исследовании структуры белка с атомным разрешением, величины смещений центров атомов в процессе свободного кристаллографического уточнения могут служить индикатором присутствия фрагмента полипептидной цепи в альтернативных конформациях.

3. Анализ структур, депонированных в банк белковых структур (РОВ), показывает, что подвижность центров атомов в свободном уточнении зависит как от статуса фрагмента структуры (присутствие в единственной или альтернативных конформациях, нахождение в главной или боковых цепях, нахождение в центре белковой глобулы или на ее поверхности), так

и от степени завершенности процесса уточнения структуры (стандартного R-фактора) и особенностей используемой программы уточнения.

4. Разработанная методика позволяет сформировать список аминокислотных остатков, с наибольшей вероятностью присутствующих в альтернативных конформациях.

5. Проверка разработанной методики на структурах, депонированных в банк белковых структур (PDB), продемонстрировала устойчивость и эффективность методики.

6. Реализация разработанной методики в виде общедоступного компьютерного программного обеспечения обеспечила возможность практического использования разработанного подхода лабораториями, ведущими исследования в области биологической кристаллографии.

СПИСОК ПУБЛИКАЦИЙ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ СТАТЬИ

1. Соболев О.В., Лунин В.Ю. Уточнение макромолекулярных структур без стереохимических ограничений как метод выявления альтернативных конформаций // Математическая биология и биоинформатика. 2008. Т.З. №2. С. 50-59.

2. Sobolev O.V., Lunin V.Y. Detection of alternative conformations by unrestrained refinement // Acta Crystallographica Section D: Biological Crystallography. 2012. V.68. P. 1118-1127.

3. Соболев O.B., Лунин В.Ю. Использование программы кристаллографического уточнения Refmac в процессе выявления альтернативных конформаций в биологических макромолекулах // Математическая биология и биоинформатика. 2012. Т.7. №2. С. 692-702.

4. Sobolev O.V. Detection of alternative conformations: Shift_plot and AC_prediction programs // J. Applied Crystallography. 2013. V.46. C. 554-559.

5. Sobolev O.V. DETAC: tools to detect alternative conformations by unrestrained refinement // Computational Crystallography Newsletter. 2012. V3. P. 32-34.

22

ТЕЗИСЫ И ТРУДЫ КОНФЕРЕНЦИЙ

6. Sobolev O.V. Atomic resolution unrestrained reciprocal space refinement may indicate alternative conformations // International School of Crystallography, 40th Course, Erice, Italy, Programme, Lecture Notes & Poster Abstracts. 2008. P. 384.

7. Sobolev O.V., Lunin V.Y. Unrestrained reciprocal space refinement as a tool to indicate alternative conformations // Proceedings of the II International conference on mathematical biology and bioinformatics. 2008. P. 156-157.

8. Соболев O.B. Определение наличия альтернативных конформаций в молекуле белка с помощью уточнения макромолекулярных структур без стереохимических ограничений // 12-я международная Пущинская школа-конференция молодых ученых, Сборник тезисов. 2008. С. 341-342.

9. Соболев О.В. Анализ подвижности атомов в процессе свободного кристаллографического уточнения структуры макромолекул // 15-я Международная Пущинская школа-конференция молодых ученых, Сборник тезисов. 2011. С. 218.

10. Sobolev O.V., Lunin V.Y. Unrestrained reciprocal space refinement can indicate alternative conformations // XXII Congress and General assembly of the International union of crystallography, Madrid, Spain. Book of abstracts. 2011. P. C104-C105.

11. Соболев O.B. Статистический анализ процедур предсказания наличия альтернативных конформаций в процессе кристаллографического уточнения структуры макромолекул // 16-я Международная Пущинская школа-конференция молодых ученых, Сборник тезисов. 2012. С. 83-84.

12. Sobolev O.V., Lunin V.Y. Atomic shifts in unrestrained refinement can indicate alternative conformations // 27th European Crystallographic Meeting, Bergen, Norway, Book of abstracts. 2012. P. 88.

13. Соболев O.B., Лунин В.Ю. Анализ величин сдвигов атомов в процессе свободного кристаллографического уточнения позволяет выявлять альтернативные конформации боковых цепей // IV Съезд биофизиков России, Н. Новгород, Симпозиум 1, Материалы докладов. 2012. С. 273.

23

14. Sobolev O.V., Lunin V.Y. Analysis of atomic shifts in crystallographic unrestrained refinement can indicate alternative conformations of amino acid residues // 4th International Conference Mathematical Biology and Bioinformatics, Pushchino, Moscow region. 2012. P. 143-144.

15. Соболев O.B. Выявление атътернативных конформаций при определении структуры белков по данным рентгеновского рассеяния. Международная конференция молодых ученых «Экспериментальная и теоретическая биофизика '12», Пущино, Сборник тезисов. 2012. С. 73.

16. Sobolev O.V. Programs for detection alternative conformations by unrestrained crystallographic refinement // The 17th International Pushchino School Conference of Young Scientists, Book of Abstracts. 2013. P. 85-86.

СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ

1. Dauter Z, Sieker L.C., Wilson K.S. Refinement of Rubredoxin from Desulfovibrio-Vulgaris at 1.0-a with and without Restraints // Acta Crystallographica Section B. 1992. V. 48. P. 42-59.

2. Bedem H. et. al. Modeling discrete heterogeneity in X-ray diffraction data by fitting multi-conformers // Acta Crystallographica Section D. 2009. V. 65. P. 1107-1117.

3. Sheldrick G.M. A short history of SHELX // Acta Crystallographica Section A. 2008. V.64. P. 112-122.

4. Murshudov G.N., Vagin A.A., Dodson E.J. Refinement of macromolecular structures by the maximum-likelihood method // Acta Ciystallographica Section D. 1997. V. 53. P. 240-255.

5. Afonine P.V. et al. Towards automated crystallographic structure refinement with phenix.refme // Acta Crystallographica Section D. 2012. V. 68. P. 352-367.

6. Walsh M.A. et al. Refinement of triclinic hen egg-white lysozyme at atomic resolution // Acta Crystallographica Section D. 1998. V. 54. P. 522-546.

7. Wang J.W. et al. Triclinic lysozyme at 0.65 angstrom resolution // Acta Crystallographica Section D. 2007. V. 63. P. 1254-1268.

24

Подписано в печать:

29.04.2013

Заказ № 8446 Тираж -100 экз. Печать трафаретная. Объем: 1 усл.п.л. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Текст научной работыДиссертация по биологии, кандидата физико-математических наук, Соболев, Олег Васильевич, Пущино

Федеральное государственное бюджетное учреждение науки Институт математических проблем биологии Российской академии наук

04201353130 На правах рукописи

Соболев Олег Васильевич

РАСПОЗНАВАНИЕ АЛЬТЕРНАТИВНЫХ КОНФОРМАЦИЙ В КРИСТАЛЛАХ БЕЖОВ НА ОСНОВЕ АНАЛИЗА ПОДВИЖНОСТИ АТОМОВ В ПРОЦЕССЕ СВОБОДНОГО УТОЧНЕНИЯ

(специальность 03.01.02 - биофизика)

Диссертация на соискание учёной степени кандидата физико-математических наук

Научный руководитель: доктор физико-математических наук, профессор

Лунин Владимир Юрьевич

Пущино, 2013

СОДЕРЖАНИЕ

ВВЕДЕНИЕ..........................................................................................................5

СПИСОК СОКРАЩЕНИЙ...............................................................................13

ГЛАВА 1. АЛЬТЕРНАТИВНЫЕ КОНФОРМАЦИИ И КРИСТАЛЛОГРАФИЧЕСКОЕ УТОЧНЕНИЕ (ЛИТЕРАТУРНЫЙ ОБЗОР) 14

1.1. Альтернативные конформации..............................................................14

1.2. Кристаллографическое уточнение........................................................21

1.3. Краткий обзор пакетов и комплексов программ

кристаллографического уточнения..............................................................26

1.3.1. SHELX................................................................................................26

1.3.2. ССР4 и REFMAC5............................................................................28

1.3.3. PHENIX и phenix.refine....................................................................30

1.4. Оценка эффективности статистических подходов к предсказанию структурных особенностей белковых молекул...........................................33

ГЛАВА 2. СВОБОДНОЕ УТОЧНЕНИЕ КАК ИНСТРУМЕНТ ПРЕДСКАЗАНИЯ АЛЬТЕРНАТИВНЫХ КОНФОРМАЦИЙ.....................38

2.1. Введение...................................................................................................38

2.2. Материалы и методы..............................................................................39

2.3. Результаты...............................................................................................40

2.4. Заключение..............................................................................................47

ГЛАВА 3. ПОДВИЖНОСТЬ АТОМОВ ПРИ СВОБОДНОМ КРИСТАЛЛОГРАФИЧЕСКОМ УТОЧНЕНИИ............................................48

3.1. Подготовка баз атомных сдвигов..........................................................48

3.1.1. Выбор моделей из PDB....................................................................48

3.1.2. Подготовка моделей.........................................................................49

3.1.3. Формирование баз атомных сдвигов..............................................50

3.2. Подвижность разных типов атомов в свободном уточнении.............51

3.2.1. Атомы в АКиЕК..............................................................................51

3.2.2. Подвижность атомов, расположенных в ГЦ и БЦ, снаружи и внутри белковой глобулы..........................................................................52

3.2.3. Зависимость подвижности атомов от достигнутого значения фактора.........................................................................................................54

3.3. Обсуждение результатов........................................................................55

ГЛАВА 4. РАЗРАБОТКА И ТЕСТИРОВАНИЕ ПРОЦЕДУР ПРИНЯТИЯ РЕШЕНИЙ.........................................................................................................56

4.1. Тестовое свободное уточнение..............................................................56

4.2. Автоматизация анализа атомных сдвигов............................................56

4.2.1. Интегральная мера искажения остатка...........................................57

4.2.2. Пороговые критерии.........................................................................57

4.2.3. Критерии, основанные на правдоподобии.....................................57

4.4. Методы тестирования процедур принятия решений..........................58

4.4.1. Статистические критерии................................................................59

4.4.2. Интегральные характеристики........................................................61

4.5. Тестирование процедур принятия решений.........................................62

4.5.1. Тестирование процедур по атомным сдвигам, рассчитанным программой ркетх.ге/те............................................................................62

4.5.2. Тестирование процедур по атомным сдвигам, рассчитанным программой ЯЕРМА С5...............................................................................65

4.5.3. Анализ результатов тестирования...................................................68

4.5. Использование АИР и значений электронной плотности в автоматических процедурах принятия решений........................................69

4.6. Зависимость эффективности процедур от разрешения набора данных 72

4.7. Достоверность баз данных.....................................................................73

4.8. Заключение..............................................................................................74

ГЛАВА 5. ПРОГРАММЫ SHIFT PLOT И AC_PREDICTION -ИНСТРУМЕНТЫ ДЛЯ ПРЕДСКАЗАНИЯ НАЛИЧИЯ АЛЬТЕРНАТИВНЫХ КОНФОРМАЦИЙ......................................................75

5.1. Техническое описание............................................................................75

5.2. Shift_plot...................................................................................................76

5.3. AC_prediction...........................................................................................77

5.4. Анализ электронной плотности.............................................................80

ГЛАВА 6. АНАЛИЗ АЛЬТЕРНАТИВНЫХ КОНФОРМАЦИЙ С ИСПОЛЬЗОВАНИЕМ РАЗРАБОТАННЫХ ПОДХОДОВ НА ПРИМЕРЕ СЕРИИ СТРУКТУР ЛИЗОЦИМА БЕЖА КУРИНОГО ЯЙЦА, ОПРЕДЕЛЕННЫХ С ВЫСОКИМ РАЗРЕШЕНИЕМ...................................81

ВЫВОДЫ...........................................................................................................90

СПИСОК ЛИТЕРАТУРЫ.................................................................................92

ВВЕДЕНИЕ

Рентгеноструктурный анализ в настоящее время является основным методом определения пространственной структуры биологических макромолекул при атомном разрешении. Знание структуры биологических макромолекул и их комплексов на атомном уровне дает возможность делать выводы о механизмах их функционирования и является основой для рационального конструирования биологически активных соединений с требуемыми свойствами. Развитие методов выделения и очистки изучаемых молекул, их кристаллизации, совершенствование рентгеновских ускорителей и регистрирующей аппаратуры способствовало росту количества данных рентгеновского рассеяния высокого качества, а развитие вычислительной техники и методов расшифровки структуры привело к тому, что многие структуры решаются в настоящее время с минимальным участием исследователя. Тем не менее, ряд этапов решения структуры требует внимательного контроля со стороны исследователя. Одним из наименее автоматизированных этапов является интерпретация карт распределения электронной плотности и построение атомной модели, как на первоначальном этапе, так и в процессе кристаллографического уточнения структуры.

Рентгеноструктурный анализ состоит из ряда последовательных этапов [1]:

• выделение и очистка белка;

• кристаллизация нативного белка;

• в ряде случаев, получение тяжелоатомных либо селен-метиониновых производных;

• сбор и обработка дифракционных данных;

• определение положений тяжелых атомов или поиск гомологичной молекулы с известной пространственной структурой и определение

оптимального положения и ориентации этой молекулы в ячейке исследуемого кристалла;

• расчет фаз структурных факторов;

• построение карт распределения электронной плотности;

• интерпретация электронной плотности и построение атомной модели;

• кристаллографическое уточнение структуры.

Модули комплексных структурных факторов (коэффициентов в разложении в ряд Фурье функции распределения электронной плотности в исследуемом объекте) определяются непосредственно из кристаллографического эксперимента. Для получения информации о фазах обычно используется один из следующих методов: изоморфное замещение [2], аномальное рассеяние [3] или молекулярное замещение [4]. По полученным модулям и фазам структурных факторов восстанавливается приближенное распределение электронной плотности и строится предварительная атомная модель структуры. Существующие методы позволяют получить лишь приблизительное значение фаз, а рентгеновский эксперимент дает значение модулей структурных факторов с некоторой погрешностью. Поэтому предварительная модель содержит ошибки, и заключительным этапом получения атомной модели является кристаллографическое уточнение структуры. Кристаллографическое уточнение включает в себя как автоматические (компьютерные) процедуры подгонки параметров атомной модели объекта под экспериментальные данные, так и этапы "ручной" работы по внесению корректировок в модель.

Интерпретация карт распределения электронной плотности и внесение необходимых изменений в модель исследуемого объекта является наиболее трудоемким этапом в расшифровке структуры и требует высокой квалификации исследователя, поэтому в последнее время активно

развиваются методы автоматического построения и корректировки атомной модели исследуемого объекта.

Прогресс в техниках кристаллизации значительно увеличил количество кристаллов, дающих экспериментальные данные атомного разрешения. Карты распределения электронной плотности, полученные для таких кристаллов, позволяют обнаруживать детали структуры, которые не видны при более низком разрешении, и получать более адекватные модели структуры. Одной из таких деталей является присутствие в кристалле альтернативных положений отдельных атомов, боковых цепей, или целых участков полипептидной цепи. Теоретически, в идеальном кристалле, все присутствующие копии молекулы должны быть строго идентичны. Это требование не выполняется в реальных кристаллах белков, используемых в рентгеновском эксперименте. Ввиду существенной подвижности отдельных участков полипептидной цепи некоторые группы атомов (в особенности, боковые цепи, обращенные в растворитель) могут присутствовать в различных положениях (альтернативных конформациях) в разных копиях молекулы в кристалле. Аккуратное построение модели объекта требует идентификации таких фрагментов и описания всех присутствующих для них конформаций. Поиск альтернативных конформаций в исследуемом объекте является важным и трудоемким этапом работы над структурой. На данный момент единственным способом поиска остатков, находящихся в кристалле в альтернативных конформациях, является визуальный анализ карт распределения электронной плотности вокруг каждого остатка. В то же время, правильная расстановка альтернативных конформаций повышает точность фаз структурных факторов, рассчитанных по текущей модели, что приводит к улучшению качества карт распределения электронной плотности во всем объеме элементарной ячейки и позволяет построить более точную модель исследуемого объекта. Кроме того, часто наличие альтернативных

конформаций связано с механизмом функционирования молекулы и может играть существенную роль при связывании белка с лигандами.

Разработка методов автоматической идентификации фрагментов структуры, присутствующих в кристалле в альтернативных конформациях, требует выделения тех или иных признаков, позволяющих различить случаи единственной и множественных конформаций. В качестве такого признака в данной работе была выбрана степень подвижности атомов модели в процессе свободного кристаллографического уточнения. Стандартная процедура автоматического кристаллографического уточнения состоит в модификации параметров модели с целью удовлетворить двум требованиям: а) добиться максимально хорошего соответствия величин модулей структурных факторов, рассчитанных по модели, их экспериментально измеренным аналогам; б) получить стереохимически приемлемую модель. Второе требование вводится в связи с недостаточно большой величиной отношения числа экспериментальных измерений к числу определяемых параметров модели, что имеет место в большинстве исследований при низком и среднем разрешении. Проведение свободного уточнения, т.е. уточнения со снятыми ограничениями на стереохимические характеристики модели, может приводить к полному разрушению модели - существенным сдвигам атомов, превращающих ее в стереохимически бессмысленную совокупность атомов. Тем не менее, при использовании экспериментальных данных достаточно высокого разрешения отдельные части атомной модели могут сохранять стабильность и при свободном уточнении. Данная работа посвящена проверке двух гипотез. Первая: стабильность фрагмента модели в процессе свободного уточнения может быть связана с отсутствием или наличием у него альтернативных конформаций. Вторая: подвижность атомов при свободном уточнении может быть использована как классификационный признак, позволяющий

идентифицировать остатки, для которых наиболее вероятно наличие альтернативных конформаций.

Целью данной работы было создание формализованной компьютерной методики поиска фрагментов молекулы исследуемого белка, для которых наиболее вероятно наличие альтернативных конформаций. В качестве индикатора наличия АК было выбрано поведение координат атомов модели белка в процессе свободного кристаллографического уточнения. Результатом поиска является список аминокислотных остатков, с наибольшей вероятностью присутствующих в исследуемом кристалле в альтернативных конформациях. Были поставлены следующие задачи:

1. Анализ взаимосвязи стабильности фрагмента модели в процессе свободного уточнения и наличия в нем АК для серии структур, депонированных в Protein Data Bank (PDB).

2. Проведение тестового свободного уточнения для наиболее надежно определенных белковых структур, отобранных из банка белковых данных (PDB), и формирование баз данных по подвижности координат атомов.

3. Выявление характеристик фрагментов структуры, наиболее сильно влияющих на подвижность этих фрагментов.

4. Разработка процедур принятия решений о необходимости введения в модель альтернативных конформаций для конкретного остатка на основе анализа величин атомных сдвигов в свободном уточнении. Анализ эффективности разработанных процедур.

5. Сравнение эффективности процедур предсказания альтернативных конформаций на основе анализа сдвигов атомов и процедур, основанных на других характеристиках модели: температурных факторах; значениях электронной плотности в комбинированных синтезах Фурье электронной плотности.

6. Реализация разработанной методики обнаружения АК в виде компьютерных программ; публикация программ.

Научная новнзна. Все результаты, полученные в ходе данного исследования, являются новыми. Была изучена подвижность координат атомов в ходе свободного кристаллографического уточнения, разработаны процедуры идентификации остатков, с наибольшей вероятностью присутствующих в альтернативных конформациях, разработанные методики реализованы в виде компьютерных программ.

Практическая значимость. Предложенные в работе методы анализа модели белковой структуры, базирующиеся на ее подвижности в свободном уточнении, дают исследователям новый инструмент как для выявления наиболее подвижных участков структуры, которые могут играть существенную роль в механизмах функционирования белка, так и для оценки надежности уже определенных структур. Разработанные методы идентификации аминокислотных остатков, которые с наибольшей вероятностью присутствуют в альтернативных конформациях, позволят снизить временные затраты на визуальное исследование карт распределения электронной плотности и, в ряде случаев, облегчить интерпретацию сложных фрагментов карт. Компьютерные программы, реализующие разработанные методики, доступны по адресу www.impb.ru/lmc/programs/ac_prediction/.

Апробация работы. Основные результаты, изложенные в диссертации, были представлены автором в виде устных докладов на 27-й Европейской кристаллографической конференции (Берген, Норвегия, 2012), XXII Конгрессе и генеральной ассамблее международного союза кристаллографов (Мадрид, Испания, 2011), IV Съезде биофизиков России (Нижний Новгород, 2012), II и IV Международных конференциях «Математическая биология и биоинформатика» (Пущино, 2008, 2012), 12,15,16,17 Международных школах-конференциях молодых ученых

«Биология - наука XXI века» (Пущино, 2008, 2011, 2012, 2013), Международной конференции молодых ученых «Экспериментальная и теоретическая биофизика'12» (Пущино, 2012), а также в виде стендового доклада на 40-й Международной кристаллографической школе (Эриче, Италия, 2008).

Публикации. По теме диссертации опубликовано 16 работ: 5 статей в рецензируемых научных журналах, из них 4 статьи в журналах, рекомендованных ВАК, 11 тезисов докладов.

Структура и содержание диссертации. Диссертация состоит из введения, шести глав, содержащих описание методов и результатов работы, выводов, списка литературы из 117 наименований. Объем диссертации составляет 102 страницы, 26 рисунков и 15 таблиц.

Во введении дается краткое описание изучаемых в работе задач, обосновывается актуальность темы диссертации, формулируются цели и задачи работы, указывается новизна и практическая значимость работы. Описывается структура диссертации и ее краткое содержание по главам.

Первая глава посвящена обзору современного состояния проблемы. Приведены общие сведения об альтернативных конформациях и процедурах кристаллографического уточнения. Дается краткое описание основных программ, применяемых при определении структуры белка и кристаллографического уточнения. Описываются статистические подходы к оценке качества разрабатываемой методики поиска остатков, для которых необходимо введение в модель альтернативных конформаций.

Во второй глав�