Бесплатный автореферат и диссертация по биологии на тему
Вычислительные подходы к решению фазовой проблемы кристаллографии биополимеров при низком разрешении
ВАК РФ 03.00.02, Биофизика

Текст научной работыДиссертация по биологии, кандидата физико-математических наук, Лунина, Наталья Леонидовна, Пущино

ИНСТИТУТ МАТЕМАТИЧЕСКИХ ПРОБЛЕМ БИОЛОГИИ РОССИЙСКАЯ АКАДЕМИЯ НАУК

На правах рукописи УДК 577.32

ЛУНИНА Наталья Леонидовна

ВЫЧИСЛИТЕЛЬНЫЕ ПОДХОДЫ К РЕШЕНИЮ ФАЗОВОЙ ПРОБЛЕМЫ КРИСТАЛЛОГРАФИИ БИОПОЛИМЕРОВ ПРИ НИЗКОМ РАЗРЕШЕНИИ

03.00.02 - Биофизика

Диссертация на соискание ученой степени кандидата физико-математических наук

Научный руководитель кандидат физико-математических наук, А.Г.Уржумцев

Пущино 1998

СОДЕРЖАНИЕ

стр.

ВВЕДЕНИЕ..................................................................................................................................................5

ГЛАВА I. ФАЗОВАЯ ПРОБЛЕМА ПРИ НИЗКОМ

РАЗРЕШЕНИИ. (ЛИТЕРАТУРНЫЙ ОБЗОР) ................................................10

1. Зачем нужны фазы рефлексов низкого разрешения ............................10

2. Восстановление структурных факторов низкого

разрешения ..............................................................................................................................12

2.1. Определение фаз методом максимального детерминанта..................................................................................................................12

2.2. Двухшаговая процедура восстановления

структурных факторов............................................................................................13

2.3. Восстановление структурных факторов с использованием гистограмм электронной плотности................15

3. Классические прямые методы..............................................................15

4. Экспериментальные методы определения фаз

структурных факторов низкого разрешения................................................16

4.1. Изоморфное замещение........................................................................................16

4.2. Молекулярное замещение..................................................................................17

4.3. Метод вариации контраста................................................................................17

4.4. Многоволновая дифракция................................................................................18

5. Ab-initio определение фаз при низком разрешении..................................19

5.1. Поиск в пространстве фаз..................................................................................19

5.2. Критерии, основанные на свойствах функции распределения электронной плотности................................................20

5.2.1. Гистограмма электронной плотности........................................20

5.2.2. Топологические свойства (связность)......................................21

5.2.3. Локальная вариация плотности....................................................22

5.3. Поиск в пространстве параметров..............................................................22

5.3.1. Сферически симметричная модель..................... 23

5.3.2. Сферически несимметричная модель.................. 23

5.3.3. Параметризация при помощи нескольких сфер...... 24

5.3.4. Параметризация при помощи большого числа

сфер............................................................... 24

5.3.5. Использование сферической оболочки.................. 24

5.3.6. Пиксельное моделирование................................ 25

5.4. Критерии поиска в пространстве параметров................. 25

5.4.1. Критерий типа R-фактора.................................. 25

5.4.2. Коэффициент корреляции модулей....................... 26

5.4.3. Анализ упаковки.............................................. 27

5.5. Вероятностные подходы............................................ 27

5.5.1. Априорные распределения с максимальной энтропией......................................................... 28

5.5.2. Маска области как априорное распределение.......... 28

5.5.3. Выбор из нескольких альтернативных масок........... 29

5.5.4. Максимум правдоподобия.................................. 29

5.5.5. Аппроксимация априорного распределения градиентом функции правдоподобия...................... 31

ГЛАВА II. FAM - МЕТОД РЕШЕНИЯ ФАЗОВОЙ

ПРОБЛЕМЫ ПРИ НИЗКОМ РАЗРЕШЕНИИ.......................... 32

1. Предварительные сведения............................................. 33

1.1.Тестовый объект.................................................... 33

1.2. Контрольный критерий: фазовая корреляция................ 33

1.3. Критерий отбора: корреляция модулей........................ 35

1.4. FAM-модели......................................................... 36

2. Связь между качеством модулей и фаз, рассчитанных

по FAM - модели......................................................... 37

2.1. Точность фаз, получаемых при помощи FAM

моделей................................................................. 37

2.2. Поиск оптимальной РАМ-модели................................ 40

2.3. Переформулировка задачи определения фаз.................. 43

3. БАМ - метод................................................................. 45

3.1. Генерация и отбор вариантов..................................... 45

3.2. Кластерный анализ.................................................. 47

3.3. Обработка кластера................................................. 53

3.4. Уточнение значений фаз и повышение разрешения......... 53

4. Проблема выбора наилучшего кластера............................... 54

4.1. Визуальный анализ.................................................. 54

4.2. Анализ плотности на осях вращения............................ 55

4.3. Топологические свойства (связность).......................... 55

4.4. Монте-Карловский тест (правдоподобие)...................... 55

ГЛАВА III. ОПРЕДЕЛЕНИЕ СТРУКТУРЫ РИБОСОМНОЙ

ЧАСТИЦЫ 508 ИЗ Шгтш 1кегторЫ1ш ПРИ

РАЗРЕШЕНИИ ПОРЯДКА 40А............................................ 61

1. Определение структуры Т50Б........................................... 62

2. Сравнение с электронно-микроскопической моделью............. 64

ПРИЛОЖЕНИЕ. Оптимальное выравнивание наборов фаз............... 74

1. Введение...................................................................... 74

2. Выравнивание карт........................................................ 75

2.1. Группа Р1............................................................. 75

2.2. Нетривиальные пространственные группы.................... 76

3. Использование асимметричной части множества структурныхфакторов.................................................... 78

1. "Перевернутые" карты................................................... 80

2. Разрешенные сдвиги начала координат.............................. 81

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ.................................... 84

СПИСОК ЛИТЕРАТУРЫ......................................................... 85

ВВЕДЕНИЕ

Изучение пространственной структуры биологических макромолекул и их комплексов является важным направлением современной биологии и создает предпосылки для детального понимания механизмов их функционирования. Метод рентгеноструктурного анализа монокристаллов является на сегодняшний день единственным экспериментальным методом, позволяющим получать детальное описание сложных макромолекулярных комплексов при атомном разрешении. Однако спецификой рентгеновского эксперимента является то, что он позволяет получить лишь часть информации (модули структурных факторов), необходимой для восстановления исследуемой структуры. Получение недостающей части информации (значений фаз структурных факторов) представляет собой центральную методологическую проблему рентгеноструктурного анализа. Основные подходы к решению фазовой проблемы, используемые в макромолекулярной кристаллографии, опираются либо на получение химическими методами изоморфных модификаций исследуемого объекта и проведение дополнительных рентгеновских экспериментов, либо на присутствие в объекте аномально рассеивающих атомов, либо на наличие известной атомной структуры гомологичного объекта. Попытки применения этих подходов встречаются с существенными сложностями при работе с макромолекулярными комплексами. В то же время разработаны математические методы, позволяющие решать фазовую проблему для низкомолекулярных соединений, основываясь лишь на данных рентгеновского эксперимента с не модифицированным (нативным) объектом. В связи с этим, в последнее десятилетие одной из актуальных задач макромолекулярной кристаллографии является разработка аналогичных методов решения фазовой проблемы, применимых к макромолекулярным объектам. Такие методы называются обычно прямыми или ab-initio методами, чтобы подчеркнуть, что они не требуют наличия ни изоморфных производных, ни известных гомологичных объектов.

Задачей данного исследования являлась разработка процедуры прямого решения фазовой проблемы макромолекулярной кристаллографии при низком разрешении. Решение фазовой проблемы при низком разрешении подразумевает определение значений фаз для нескольких десятков коэффициентов Фурье (структурных факторов) в разложении в ряд Фурье искомой функции распределения электронной плотности в исследуемом объекте. Наличие такой информации делает возможным расчет соответствующей части ряда Фурье и позволяет получить сведения о локализации объекта в элементарной ячейке кристалла и его внешних очертаниях, что является стартовой точкой для процедур расширения и уточнения набора фаз.

В программу работы входило: исследование степени неоднозначности решения фазовой проблемы при низком разрешении и разработка примененных для этого исследования процедур кластерного анализа; разработка процедуры Монте-Карловского типа для решения фазовой проблемы при низком разрешении; разработка и создание соответствующего программного обеспечения; тестирование метода с использованием объектов с известной структурой; применение разработанных методов к определению структуры рибосомной частицы Т50Б из Ткегтт (ИегторкИт при разрешении порядка 40А.

Математическая суть фазовой проблемы состоит в том, что стандартный эксперимент по дифракции рентгеновских лучей (либо нейтронов или электронов) на кристаллических образцах позволяет

определить лишь модули | Т^у | комплексных коэффициентов (структурных

факторов) в разложении в ряд Фурье функции распределения электронной плотности в исследуемом кристалле:

= Х^шехР[^ш]ехР[~ 2т(Их + ку + Щ . (1)

ш

При этом значения фаз | (р^ | остаются неизвестными, делая невозможным прямой расчет функции распределения электронной плотности. Здесь () - относительные координаты точки в базисе, образованном

периодами кристалла, а () - целочисленные индексы. Теоретически

суммирование в (1) должно быть распространено на все целочисленные индексы, однако на практике используется конечный набор структурных факторов. Размеры использованного при расчете (1) набора структурных факторов принято характеризовать разрешением. При этом под разрешением,

соответствующим отдельному структурному фактору, понимается длина с1 "плоской волны", отвечающей соответствующей гармонике Фурье

ехр[- 2л1(Ьх + ку + /я)], а под разрешением набора

структурных факторов - минимальное из разрешений для структурных факторов, входящих в набор.

Дополнительное предположение о том, что не является

произвольной функцией, а может быть представлена как сумма вкладов отдельных атомов, позволяет получить соотношения (алгебраические и вероятностные) между значениями модулей и фаз структурных факторов. Эти соотношения лежат в основе методов расчета значений фаз для низкомолекулярных соединений. В последние годы эти методы были существенно развиты и позволяют в настоящее время при благоприятных обстоятельствах определять структуры небольших белков, содержащих до 1000 атомов в независимой части ячейки. Однако применимость этих методов к макромолекулярным объектам существенно ограничена размерами исследуемого объекта и необходимостью иметь в наличии набор экспериментальных данных очень высокого разрешения (лучше 1.0 А, что для белков является скорее исключением, чем правилом).

Основными подходами к решению фазовой проблемы в кристаллографии белка является использование изоморфного замещения,

аномального рассеяния или известной атомной модели гомологичного белка. В первом из подходов ключом к решению фазовой проблемы являются различия в модулях структурных факторов, отвечающих исходному объекту и полученному путем его химической модификации изоморфному производному. Во втором подходе оказываются существенными разности в величинах модулей специальных пар структурных факторов, которые возникают при наличии в исследуемом объекте аномальных рассеивателей. Оба эти эффекта убывают по мере роста размеров исследуемых объектов, поэтому их применение начинает встречать существенные сложности при попытках определения структуры больших макромолекулярных комплексов (например, таких, как рибосома и составляющие ее субъединицы). Поэтому существенное значение приобретает создание для макромолекулярной кристаллографии ab-initio методов решения фазовой проблемы. К этой группе относятся методы, использующие для расчета фаз лишь общие сведения об исследуемых объектах и ограничивающиеся экспериментальными данными, полученными в эксперименте с нативным объектом.

Имеются две стратегии решения фазовой проблемы. Первая из них восходит к области низкомолекулярных соединений. При таком подходе сразу пытаются использовать данные как можно более высокого разрешения. К белкам такой подход начал применяться не так давно. Этот подход содержит ряд ограничений, которые существенно затрудняют его применение для очень крупных структур. Например, сразу требуются данные очень высокого разрешения, что далеко не всегда можно получить в эксперименте. Кроме того, такие методы оказались чувствительны к наличию в белке атомов металлов, и результаты не всегда стабильны.

В излагаемом подходе используется другая стратегия, традиционная именно для белковой кристаллографии - сначала решить фазовую проблему для низкого разрешения, а потом постепенно расширять набор фаз. Под термином "низкое разрешение" здесь понимается такое разрешение, когда в рассмотрение включены 50-100 малоугловых рефлексов. При таком подходе сама величина разрешения зависит от размеров элементарной ячейки. Для

белка обычных размеров (с длиной ребер ячейки порядка 70А) это разрешение порядка 10А. Для использованного при тестировании методики комплекса т-РНК-синтетазы с тРНК (параметры ячейки порядка 350А) - это разрешение 40А. Для кристаллов рибосомной частицы Т50Б ( длины ребер ячейки порядка 500А) - это разрешение порядка 60А. Карты электронной плотности такого разрешения позволяют определить внешние очертания молекулы и ее местоположение в элементарной ячейке (в частности, это может оказаться полезным и при использовании метода молекулярного замещения при решении проблемы трансляции), а соответствующие фазы структурных факторов являются стартовой точкой для дальнейшей процедуры расширения набора фаз.

Работа по развитию изложенных в диссертации методов выполнялась в сотрудничестве с Лабораторией биологических структур Института генетики и молекулярной и клеточной биологии (Страсбург, Франция) и Лабораторией кристаллографии и моделирования минералов и биологических структур Университета Нанси (Франция). Работы по применению разработанной методики к определению структуры рибосомной частицы Т50Б велись с использованием экспериментальных данных, полученных в группе А.УопаШ (Институт им.Макса Планка, Гамбург, Германия) и в тесном сотрудничестве с А. УопаШ и ГА^ап.

Работа была поддержана грантами РФФИ 94-04-12844 и 97-04-48319.

I. ФАЗОВАЯ ПРОБЛЕМА ПРИ НИЗКОМ РАЗРЕШЕНИИ.

(ЛИТЕРАТУРНЫЙ ОБЗОР).

1. Зачем нужны фазы рефлексов низкого разрешения.

Необходимость решения фазовой проблемы является главным препятствием на пути от полученных экспериментально значений модулей структурных факторов к картам распределения электронной плотности. Обычно для макромолекулярных объектов эта проблема решается методами изоморфного замещения (Perutz, 1965; Blow & Crick, 1959; Blow & Rossman, 1961), аномального рассеяния или молекулярного замещения (Rossmamm, 1972). При этом достигается разрешение карт, близкое к атомному, что позволяет интерпретировать эти карты в терминах координат атомов. При этом структурные факторы низкого разрешения (разрешение ниже 10А) традиционно игнорируются в силу ряда экспериментальных и методических сложностей. Тем не менее знание фаз рефлексов низкого разрешения является весьма важным в ряде случаев, например:

• в случае, когда знание маски для области молекулы необходимо для решения фазовой проблемы при более высоком разрешении; Это включает в себя методы модификации электронной плотности (Podjarny, Rees & Urzhuntsev, 1996) и молекулярное замещение, где необходимо знание положения и ориентации объекта (Rossmann,1990);

• в случае, когда знание фаз для базовых рефлексов низкого разрешения позволяет повысить эффективность классических прямых методов (Mo et al., 1996; Mathiesen & Mo, 1998);

• в случае исследования больших макромолекулярных комплексов, когда изображения даже при низком разрешении могут нести важную структурную информацию;

• когда измеряемое дифракционное поле кристаллов ограничено низким разрешением;

• в случаях, когда исключение рефлексов низкого разрешения вызывает большие искажения в изображении объекта (Podjarny, Schevitz & Sigler, 1981; Urzhumtsev, 1991; Stenkamp, 1994).

Определение термина "низкое разрешение" зависит от традиций различных лабораторий и типа исследуемых объектов. Этот термин часто используется просто для обозначения рефлексов центральной зоны обратного пространства, не измеренных в эксперименте. Альтернативный путь -использовать термины "очень низкое разрешение" и "низкое разрешение" в соответствии с тем, как влияет рассеяние рентгеновских лучей растворителем на рефлексы этой зоны (Urzhumtsev & Podjarny, 1995; Podjarny & Urzhumtsev, 1997):

• Очень низкое разрешение (d > 25А). В этой зоне разрешения близко расположенные атомы объекта рассеивают рентгеновские лучи почти в фазе, что приводит к очень большим величинам модулей структурных факторов для некоторых рефлексов. С другой стороны, при этом уровне разрешения может использоваться модель однородного растворителя. В этом случае компл�