Бесплатный автореферат и диссертация по биологии на тему
Структурный и функциональный анализ последовательностей биополимеров, основанный на новом методе множественного выравнивания
ВАК РФ 03.00.15, Генетика

Автореферат диссертации по теме "Структурный и функциональный анализ последовательностей биополимеров, основанный на новом методе множественного выравнивания"

РГб од

] 5 ДЕК 1Ььо

На правах рукописи УДК 578.088:(57б. 12+575.24)

ВУЛЬФ ЮРИЙ ИГОРЕВИЧ

СТРУКТУРНЫЙ И ФУНКЦИОНАЛЬНЫЙ АНАЛИЗ ПОСЛЕДОВАТЕЛЬНОСТЕЙ БИОПОЛИМЕРОВ, ОСНОВАННЫЙ НА НОВОМ МЕТОДЕ МНОЖЕСТВЕННОГО ВЫРАВНИВАНИЯ.

Специальность 03.00.15 - генетика

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Новосибирск 1996

Работа выполнена в Институте цитологам и генетики СО РАН, г. Новосибирск

Научный руководитель: профессор, доктор биологических наук,

В.А. Ратнер

Институт цитологии и генетики СО РАН, г. Новосибирск

Официальные оппоненты: доктор биологических наук,

Т.Н. Аксенович

Институт цитологии и генетики . СО РАН, г. Новосибирск

кандидат биологических наук, Н.В. Тикунова

Институт биоинженерии ГНЦ "Вектор", п. Кольцове

Ведущее учреждение: Новосибирский институт биоорганической

химии СО РАН, г. Новосибирск

Зашита диссертации состоится. 1996 г.

на заседании диссертационного совета по защите •

диссертаций на соискание ученой степени доктора наук (Д - 002.11.01) в Институте цитологии и генетики СО РАН в конференц-зале Института по адресу: 630090, г. Новосибирск, проспект академика Лаврентьева, 10. С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН

Автореферат разослан_

Ученый секретарь / _

I ■ / —— диссертационного совета, _4 - /'

доктор биологических наук А.Д. Груздев

Введение.

Актуальность проблемы. В настоящее время важность разработки методоз анализа последовательностей биополимеров является общепризнанной. Среди задач такого анализа обращают на себя внимание две связанные проблемы: проблема классификации и структурно-функциональной разметки последовательностей. Часто такие задачи выступают в виде задачи множественного выравнивания и построения дендрограмм сходства.

Выравнивание последовательностей задает определенный набор отношений между входящими в них символами (т.е. структурными единицами биополимера). С точки зрения молекулярного биолога, адекватным является такое выравнивание, которое правильно ставит в соответствие друг другу либо зволюцнонно гомологичные, либо структурно (функционально) аналогичные фрагменты последовательностей. Существуют десятки методов множественного выравнивания последовательностей, использующих разные математические модели, разные алгоритмы и опирающихся на разные представления о предметной стороне проблемы (Chan et al. 1992). Однако, качество работы большинства методов (то есть их способность отражать наши представления о структуре, функции и эволюции реальных биополимеров) является неудовлетворительным (см. McCIure et al. 1994). Одной из основных причин этого является несоответствие задачи, которую ставят исследователи (выровнять аналогичные либо гомологичные остатки), и задачи, решаемой большинством методов (обычно это точный либо приближенный поиск экстремума целевой функции, определенной на пространстве возможных выравниваний). Отсюда проистекает необходимость поиска новых подходов к решению этой задачи.

Адекватное множественное выравнивание позволяет исследователю, изучающему конкретный биополимер, ответить на ряд вопросов и в первую очередь - определить место объекта исследования в общей системе. Примером такого исследования является анализ последовательности недавно итсеквенированного фермента бактериальной системы рестрикции-модификации - метилтрансферазы Sse9l, позволивший найти место этого фермента в рамках существующей классификации метилтрансфераз, расширить эту классификацию и уточнить определение консервативных мотивов, выявленных ранее в метилазах.

К одной из задач, предъявляющих требования качества и эффективности к используемому методу выравнивания, относится задача анализа последовательностей пикорнавирусов. Геномная РНК нико-рнавирусов содержит 7.2-ь8.5 тысяч оснований, в базах данных имеется около 50 огсеквенированных полных геномов. Такой объем данных в совокупности со сравнительно хорошей изученностью молекулярной биологии пикорнавирусов делает их перспективным объектом исследо-

в алия. В данной работе изучаются пути, темпы и режимы молекулярной эволюции пикорнавирусов а также особенности основного источника эволюционной изменчивости - процессов спонтанного мутагенеза в их РНК-решшкацнонных системах.

Цела исследование. Первой целью работы было создание эффективного метода множественного выравнивания, который бы мог служить практичным инструментом для задач исследования последовательностей биополимеров. К такому методу предъявляются следующие требования: возможность получать биологически адекватные выравнивания при минимально возможном сходстве объектов сравнения; позволять обрабатывать на персональных компьютерах десятки последовательностей длиной в сотни символов за время, измеряемое минутами; быть легко адаптируемым для задач филогенетического анализа и пояска сходства в базах данных. Метод предполагалось использовать для решения последующих задач.

Вторая цель работы - исследование аминокислотной последовательности метнлтрансферазы Sse9Iy секвенированной в 1996 г. сотрудниками предприятия СИБЭНЗИМ г. Новосибирска. В цели этого анализа входила идентификация структурно-функциональных мотивов последовательности, классификация новой метнлтрансферазы и критическое рассмотрение существующих представлений о консервативных элементах метилтрансфераз системы рестрикции-модификации.

Третья цель работы - изучение молекулярной эволюции пикорнавирусов путем сравнительного анализа последовательностей их генов и белков: исследование путей, темпов и режимов их эволюции а также процессов спонтанного мутагенеза, обусловленного ошибочным включением оснований при репликации вирусной РНК. Задачи иссяедованиа. В ходе исследования ставились следующие задачи: разработка метода множественного выравнивания последовательностей биополимеров и реализация его в виде набора высокоэффективных программных модулей; анализ быстродействия и качества работы метода и сравнение его с существующими подходами; идентификация структурно-функциональных мотивов в последовательности метнлтрансферазы БвеЭ! и классификация этого фермента; построение множественного выравнивания и анализ сходства последовательностей метилтрансфераз, сходных по структуре с &е9/; уточнение существующих представлений о классификации и особенностях последовательностей метилтрансфераз прокариот; построение множественного выравнивания и дендрограмм сходства последовательностей генов и белков пикорнавирусов, исследование классификации вирусов этого семейства, сравнение реконструированных путей эволюции отдельных генов и регионов пикорнавируснош генома; расчет частот синонимических и несинонимических замен, а также вставок и делений, в род-

стпенных группах пикорнавирусов; сравнение темпов и режимов молекулярной эволюции отдельных генов; расчет частот отдельных типов нейтральных замен в генах пнкорнавирусов, определение параметров процессов спонтанною мутагенеза при регоппэдкй вирусной РНК, определение контекстной обусловленности частоты фиксации замен отдельных оснований.

Научаая познана. Разработаиый метод множественного выравнивания последовательностей является оригинальным и, в отличие от большинства существующих методов, использует ряд представлений о структуре и эволюции биополимеров, что позволяет получать более здетсват-ПЫ2 выравнивания при небольших затратах вычислительных ресурсов.

С помощью предложенного метода впервые произведен анализ исухпндонзгельиосги мешхтрансфзрази установлена .пршгд-тгу-ноегь этого фермента к. классу Лц металтрапсфераз. Впервые предложено разделение данного класса ферментов на две подгруппы и уточнены позиции консервативных элементов метил аз подгруппы е91.

Молекулярная эволюция генов и белков пикорнавирусов проанализирована на материале, превосходящем по объему материал предыдущих исследований (81ап\уау 1990). Впервые исследованы соотношения между отдельньми типами элементарных эволюционных событий (синонимическими и несинонимическими заменами, вставками и деле-шкмии) у пикорнавирусов, отмечено различие типов структурно-функциональных ограничений на организацию >юслеяозателшостсй между отдельными белками пикорнавирусов. Предложена оригинальная модель иикроэаолкшии вируса паш?о^:<г-.лнтп. Впервые исследованы характеристики процессов спонтанного мутагенеза в реплккацп-онной системе пикорнавирусов.

Теоретвчесаая а ?драктсческаа иеясеста гпб-атм.- Разработанный метод множественного выравнивания использует оригинальную процедуру поиска маршрута выравниваний, базирующуюся на представлениях о природе сходства реальных биополимеров. По качеству работы метод не уступает лучшим мировым образцам и пригоден при этом к использованию на персональных компьютерах. Уточнены представления о классификации и организации последовательностей ферментов, важных доя генной инженерии и биотехнологии - метилтрансфераз бактериальной системы рестрикции-модификации. Исследована молекулярная эволюция пикорнавирусов - патогенов человека и животных, уточнена классификация внутри семейства. Результаты исследования проливают свет на режимы эволюции пикорнавирусов и на функционирование системы рёпликации вирусной РНК.

Апробалиа работы. Материалы исследования были частично представлены на отчетных сессиях ИЦиГ СО РАН 1993 и 1996 годов, на Четвертой Международной конференции Общества молекулярной

биологии и эволюции (Tucson, США, июнь 1996 г.) и на Втором Сибирском Конгрессе по Прикладной и Индустриальной Математике -ИНПРИМ-96 (Новосибирск, июнь 1996).

Структура работы. Работа состоит из введения, трех гнав, заключения и выводов. Глава 1 содержит обзор литературы. Глава 2 содержит описание методов, использовпных в данном исследовании. Глава 3 содержит изложение и обсуждение полученных результатов. Работа изложена на 121 странице машинописного текста и содержит 14 таблиц и 22 рисунка. Список литературы включает 187 ссылок.

Работа выполнялась по тематике лаборатории (государственной регистрационный номер 01.86.0 102123) и частично поддержана грантами РФФИ 94-04-11040-а, ГоскомВУЗа 3H-374-93, МНФ RAS300 и программы "Приоритетные направления генетики" 5.892.

Методы исследовании, Выравиивадие последовательностей биополимеров осуществлялось методом, разработанным автором и сотрудниками (Селедцов и др. 1995). Метод множественного выравнивания основан на оригинальном алгоритме выравнивания пар обобщенных последовательностей (профилей). Обобщенная последовательность (профиль) А длиной La, заданная в алфавите из N символов, представлена т.н. консенсусной матрицей, где А^- есть вероятность того, что j-тый символ (аминокислота, нуклеотид и т.п.) занимает i-тую позицию профиля А. Пусть задана матрица сравнений символов S, определяющая вес (меру сходства) каждой пары букв из используемого алфавита. Тогда для пары профилей А и В длиной La и Ьь соответственно, можно построить матрицу позиционного сходства О (для краткости будем называть ее дог-матрицей). Элемент дот-матрицы Оху есть мера сходства между позицией д; последовательности А и позицией у последовательности В. Элементы дот-матрицы вычисляются следующим образом: N N

1=1 j=\

Последовательность элементов дот-матрицы Оху, Ох+ i,y+i, ... , Ох+м.у+м назовем диагональным фрагментом длины I (для краткости - диагональю). Диагонали QXiyi соответствует пара выравненных фрагментов профилей А и В, начинающихся с позиций х и у соответственно и имеющих длину /. Абсолютным весом диагонали £?*,?,/ назовем сумму элементов дот-матрицы, входящих в данную диагональ: / 1

W^, = ^ \Or\iy*; • ¡=0

Выравнивание двух последовательностей можно представить как маршрут от начала одной из последовательностей до конца одной из

последовательностей (той же пли другой), состоящий из диагоналей п

горизонтальных или вертикальных переходов между ними.

Выравнивание двух последовательностей должно включать s себя участтги с высоким схсдстром, Поскольку биологически адекватное понятна о "высоком" и "низком" сходстве фрагментов последовательностей ас ;.:о;;сет быть сформировано a priori, мы использовали статксти-'jecicin'j критерий. И качестве меры значимости веса диагонали Q..yj с абсолютным несом Ww' использовался ее нормированный вес

~ Wrx,y,i ~ !, где Af1 и D1 - первый и второй моменты фувхдп!» распределения величины Q~y («киут быть найдены ю матрицы S, априорных частот символов и мера однородности последовательностей; Селедцов и др. 1996). Распределение нормированного веса с^рсылся ; псры2лыго5.:у со средним О и дисперсией ; с посгом I (следствие Центральной предельной теоремы стачиетнки).

Наиболее существенной орипшальной чертой метода выравнивания является процедура поиска маршрута зыравиивания. Большинство существующих методов, опирающихся на поиск фрагментов сходства, использует сложные оптимизационные алгоритмы, определяющие какие именно фрагменты должны быть вхлючены в выравнивание. Это необходимо для решения задачи в общем виде, т.е. для выравнивания произвольных строк символов. Однако, если метод рассчитан пз выравнивание реальных бяоволчмерои, тем более обладающих биологическим сг.оясичи». (н противном случяо их выравнивание лишено предметного смысла), то алгоритм ноаска можно сделать простым и эффективным (,>ис. ?} Денствигелы'о, пусть диагональ имеет пес, наибольший во tee" /vv.--.m.трипе (т.е. юотзгт-cisycr участку с наибольшим сходством). Разумно предположить, что тгсхсй участок зходнт и выравнивание, Нахо.-ьлсн#-; анйюналн i2s приводит к рачбиению шю-

Qi

' it »

| шади дот-матрицы на

зоны: зона, где не может

if г И И ' М Mil! U! »! « i Г*'ГЗТ' к г if И; 11 i г я i1 г: И j г г \ \; г Ь

I»fit'>>fi>i;>t и - 5i>i>il i i И" | pb iliiii!

находиться диагональ, не

......—...----". и» '> 'КЛ противоречащая только

что найденной (2е на рис. 1), и зона, состоящая из двух прямоугольных окон, где такая ди-_ агонапь может находить-

[_] §Ц ЙО £§] Ъ\ ся. Повторив процедуру

поиска наилучшей диа-Рисунох 1 гопали в одном из таких

Схема последовательного поиска статистически окон, мы получим еше значмых участков сходства. °Д»У диагональ (2г). ко-

торая, в свою очередь, исключает из рассмотрения еще часть площади дот-матрицы (Zi). При этом очевидно, что поиск диагонали в зоне слева-вверху от ранее найденной является процедурой, независимой от поиска диагонали справа-вннзу. Поиск лучшей диагонали завершится тогда, когда размеры окна станут меньше установленной величины, либо во всем окне не окажется диагонали, вес которой превышает заданный порог. На этом этапе работы выбор лучшей в окне диагонали определяется только ее весом VXj>,[ (штраф за делеции не предусматривается). Последовательный перебор всех образующихся окон приводит к формированию набора диагональных фрагментов, входящих в предварительный маршрут выравнивания.

Полученный таким образом набор диагоналей представляет собой "скелет" будущего выравнивания. Для того, чтобы найти оптимальные позиции переходов от диагонали к диагонали, и для коррекции некоторых типичных ошибок используется ряд эвристических процедур. Процедуры коррекции основаны на вычислении полного (включая вес разрыва) локального маршрута выравнивания и выборе варианта с максимальным абсолютным весом.

Процесс множественного выравнивания набора последовательностей выполнен путем попарного объединения объектов (принцип прогрессивного выравнивания). Порядок объединения объектов задается дендрограммой сходства последовательностей, более сходные объекты объединяются ранее. Эта дендрограмма может быть получена различными способами: задана из априорных (филогенетических) соображений (Gorbalenya et al. 1989), найдена с помощью программ, не требующих предварительного выравнивания последовательностей (Solovyev and Seledtsov 1993), получена из анализа результатов парных выравниваний исходных последовательностей (Higgins et al. 1992) или реконструирована параллельно с процессом прогрессивного выравнивания (Макарова и др. 1995, Макарова и др. 1996).

параллельно с выравниванием по разработанной нами методике (Макарова и др. 1995, 1996): для R невыравненных последовательностей строилась матрица попарного сходства всех последовательностей размером [ДхЛ]. Для этого все возможные пары последовательностей выравнивались; элементам матрицы приписывались веса полученных выравниваний. Весом выравнивания считалась усредненная по его длине и числу входящих последовательностей сумма сходств всех пар символов, занимающих одну позицию в выравниваемых объектах. Пара последовательностей, дающих выравнивание с наибольшим весом, объединялась в одну OTE (операционную таксономическую единицу) и выравнивалась заново со всеми оставшимися OTE. Веса этих выравниваний заносились в матрицу, и ее размерность уменьшалась на

единицу. Далее пропедура повторялась, пока все последовательности

не объединялись в одну OTE; последовательность шагов процедуры фиксировалась в виде дерева сходства.

Статистическая значимость (достоверность) образования OTE одешишлась из следующих соображений: вес каждой OTE рассматривался как нормально распределенная случайная величина ^Vq с известным средним (разным оценке веса) и дисперсией (дисперсия веса позиции деленная на длину выравнивания). Для текущего объединения OTE с максимальным весом находятся конкурирующие с ним К объединении (W\,... ТУк). Вероятность того, что объединение с максимальной оценкой имеет действительно наибольший вес можно кзйти, учитывая что Pr = > max(Wj, W2,... WK)}, путем свертки распределении наличии r7fi,í»'i....7rK ;

isp к

Pr = j Фо(х)ПФ;(*)^ .

- да ¡=1

где фо - функция плотности нормального распределения со средним то и дисперсией do (параметры для распределения Wo), а Ф,- - функции нормального распределения со средним m¡ и дисперсией d¡ (параметры для К конкурирующих OTE).

Аиаляз эволюпнонных событий проводился стандартными методиками, принятым при изучении молекулярной эволюции (Кимура 1985, Nei 1987, Ratn'er et al. 1996). По дендреграчш;-' сходства нухлеотнд-¡шх последовательностей реконструировались предковые последовательности и отмечались замены. Частоты синонимических и несипони-мичесхих замен приводились п пересчете па сайг (синонимический или чесинонимнческий соответственно). Аналогично находилась плотность вставок л делений (как отношение числя событий типа "замена" остаток—»пробел и пробел—»остаток к длине выравнивания).

Результаты к обсужденье

Реалигзаяня алгоритма иаожесгаениого выравнивания. Предложенный метод множественного выравнивания последовательностей биополимеров был реализован нами в виде ряда программных модулей. Для работы про1раммы необходим IBM-совместимый персональный компьютер с процессором Intel не ниже 80286 и математическим сопроцессором (80x87) под управлением MS-DOS 3.0 и выше. Программа может выравнивать до 255 последовательностей; максимальная длина последовательности составляет около 16300 для парного и от 3120 (аминокислотные) до 13100 (нуклеотидные) для множественного выравнивания. Быстродействие программы при выравнивании выборок белковых последовательностей приведено на рис. 2 (программа тестировалась в варианте ALITRE, одновременно выполняющем построение

множественного выравнивания и дендрограммы сходства, на

компьютере с процессором 80486 DX2-80). При небольших длинах последовательностей разброс времени определяется в основном внутренним сходством выборки; так в более гетерогенной выборке NTP-связывающих вирусных белков один акт парного выравнивания выполняется в среднем в 2 раза медленнее, Абсцисса - ср. донна последователызоста. Ор- чем „ выборке глобинов близ-дината - ср. время парного Еырагпшшшя, с. длины.

Существуют различные представления о том, как оценивать качество выравнивания. В частности, из предметного смысла задачи вытекают следующие определения "оптимального" ("истинного") выравнивания - это выравнивание, правильно ставящее в соответствие друг другу либо гомологичные, либо аналогичные фрагменты последовательностей (Barton and Sternberg 1987, McClure et al. 1994). Очевидно, что в большинстве случаев "истинность" выравнивания в биологическом смысле не может быть достоверно установлена (особенно если речь идет о гомологии, а не аналогии участков биополимера). В то же время эксперт обычно способен отличить "хорошее" выравнивание от "плохого" (тем более когда выравниваются сравнительно хорошо изученные наборы последовательностей). Следуя рекомендациям McClure et al. (1994), мы будем трактовать понятие "качество выравнивания" как соответствие его гипотетическому "истииному" выравниванию; тогда работоспособность метода - это его способность воспроизводить "правильное" выравнивание наборов обектов, для которых оно уже известно.

Практически работоспособность предложенного метода проверялась следующим образом: мы выравнивали выборки четырех белковых семейств из работы McClure et al. (1994) и подсчитывали число правильно идентифицированных мотивов в соответствии со схемой, приведенной в цитированной работе. Результаты работы программы AUTRE приведены в таблице 1, где они сравниваются с результатами трех лучших из тестированных McClure et al. программ (результаты нашей программы выделены курсивом). Видно, что по способности воспроизводить стандартное выравнивание McClure et al., ALITRE находится на первом-втором месте, немного уступая программе DFALIGN (Feng and Doolittle 1987) в двух наборах из четырех.

Обобщая сказанное выше, можно заключить, что нами пред-

100.00 10.00 1.000.10 © 5 с

0.01

«

6

<5>

10.0 100.0 1000.0 10000.0

Рнеупок 2 Быстродействие программы ALITRE.

Набор Глобины Кяпазы

Число пссл. 12 10 6 12 10 6

AUTRE 10S.Ö m.o I- Ш0 99.0 98.8 98.0

jBFALIGN 1C0.0 !00,0 3C0.0 j 100.0 100.0 95.9

AMULT iÖO.O leo.Q 100.0 96.9 96.3 91.8

CLUSTAL V 33.4 33.0 96.6 93.0 93.8 93.8

Набор ТТротеазы РНХазы H

Число поел. п ! io 1 6 12 | 10 6

Л-Li'iRE PI У 96, / ! 77,7 SP.8 j 92.5 j 97.5

L>F ALIGN 1C0.0 100.0 I 77.7 95.3 1 82.5 91.8

AMULT 77.7 80.0 39.0 73.3 1 80.0 82.5

"Д. / 8<». i Ö3.J U A • J О f\ f\ VL/.W 6*8

1гёлга>а 1

Доля иотагов (%), пргвильно пценТЕфицпровашшх различными программами в выборках аз McClure et al. (1994). ложен метод построения множественного выравнивания последовательностей биополимеров, имеющий следующие оригинальные черты: использование нелинейной меры сходства фрагментов (нормированный вес); эвристическую процедуру нахождения оптимального маршрута выравнивания, проходящего через статистически значимые участки сходстга; а ¡а^^с прспсду?" кркхайй Ляряого и шнжест-jeHHovo йтлрз';пи'?анц;1. ilporpa.vwa. рог5::лзум;!'зл предтсжезпшй лпго-:)1П'м. ;1ри аг;и:юе xor,o:iie кзу-^нкых. с.отлетов позволяет полу'-^'-ь £>».!иав!\Ч(й»шш, хороню сл£лгсуюц(;;еся с прдатавлеьнямн с структурном н ф'/пкииоиапьг.ом родстве фрагментов последовательное ¡ей »¡. гк.чч'ому. Съпь исполг.зоваиа /л из ксследоватм полых объектов

Д^ч^х"«?-!?.:!^ пгп-одяп-

zi с мсполт.'-.овакнем оригинальною метода миожестьеннсго ьыравнисзняа. Ген Sse9i - меп>л!раиофсрази из Sporosarcina sp. штамм 9D - был секвенирован сотрудниками предприятия СББЭН-ЗИМ г. Новосибирска Д.А. Гончаром и С.Х. Дегтяревым (Gonchar et al. 1996). В змшюхисютноа последовательности Sae9I нами были ндентифииировакы два наиболее консервативных мотива m А-метил-трансфераз - СМ I и СМ И (мотивы описаны Klimasaaskas et al. 1990, Wilson 1992). Состав и порядок мотивов позволили нам отнести мети-лазу Sse9I к классу Du метилтрансфераз бактериальной системы рестрикцип-модифпкацни (по классификации Timinskas et al. 1995).

Множественное выравнивание и построение дендрограмм сходства метилтрансфераз класса D^ показало, что ферменты этого класса могут быть разделены на две предположительно монофилетические группы (рис. 3). Важно отметить, что это разделение является статистически достоверным. Обе подгруппы выделяются с уровнем значимости <бх10"5. Интересно, что сайты узнавания и модификации метилаз

подгруппы ЕсоВУ, за исключением трех карбокси-концевых доменов, очень похожи друг на друга; сайты узнавания и модификации метил аз подгруппы 5$е91, напротив, весьма разнообразны.

Ранее Иттяказ е1 а1. (1995) выявили четыре консервативных мотива в последовательностях т4С- и тбА-метил-трансфераз - СМ Ь, СМ I, СМ II и СМ III. Мы идентифицировали эти мотивы в последовательности 8хе91 и других метнлазах этой подгруппы (рис. 4). Наше позиционирование мотива СМ III для ряда метилаз не совпало с данными Итшяказ е1 а1. (1995). В пользу приведенного здесь нашего варианта можно привести два аргумента: во-первых, наше позиционирование лучше согласуется с выравниванием ме-тнлаз внутри подгруппы при сохранении общего сходства консервативных элементов мотива и, во-вторых, этот вариант подтвержден предсказаниями вторичной структуры (предсказанный нами структурный мотив <а-спнраль> - <Р-поворот> - <|3-складка> характерен для окрестностей СМ Ш метилаз по данным рентгеноструктурного анализа; ЬаЬаЪп е1 а1. 1994, БсЫискеЫег е1 а1. 1995).

СМ 1« СМ I

отн. поз. abcdefghi ¿Зс1пшорд abcdefghi jkllsmo 4- УЬС5К-НТЬУРУЬСША 27- АУОЬРТвТТЙУАОЕГ СпАП б- У1СБК-ЬЫЖОЯ1ГЕЕ1 32- I'АОЬЕАС Б С1НТНЕА ЫШП 3- У1в8К-ЬКЬ8ШЬЕТЕ1 31- ЕСОЬЕАвТв1УвКК? Ыа1 3- УЬвЫК-ТЫЬЬЫП00У1 28- ЕАПЬЕАвТСБУСОУГ Рок1 3- Г1в5К-УОТ,ЬО1и0ЕУ1 29- ПЮЬЕевТв1УвЕЫГ 3- У IGSK.-KLI.LPE 1ККМУ 29- ЕЪОЪЕАСТМГУАОТГ коне. У1в8К..Ь...1...1 Е.ОЬЕ.вТ..V'..Е

Ш

оойи

¥

Рксуиок. 3 Децдрогргмма сходства метнлтралефграз класса Рц. Жирные вертикальные липли обозначают вершины с Рг>0.9.

СМ 11

отп. поз. аЬсйе£дЬз. э £те9/ 195- УОШУШРРУ Сл/Ш1202- ТО1АУУ0РРУ N10111 205- ЫЛХУЬСРРУ Ш1 212- вРГАУЮРРУ Рок! 212- GDILYIDPPY 5и/ 210- А01УУЮТРУ коне. .РТ.УЮРРУ

СМ III abcdefghi¿кХптордгБ

283- КМБТЫША---СУЕБУВХЬ

284- МУАЬЬБОУ---вКСЕУУУ11

288- \niEIFERF---GKYDLVQT

296- ЬУОЬА1тГАТОС IУЕУЕТи

297- 1Е81ЬКвН---GLPETУRI

295- ЬТЫ ГЬКЕЕБТОв1УО1КК1

!----+.....в.. = |...

Рисунок 4

Консервативные мотивы метилаз подгруппы 8хе91. ■ | - алифатическая аминокислота; + - положительно заряженная ам. к-та; = -отрицательно заряженная ам. к-та;

маленькая ам. к-та.

Тахпк образом, проведенный нами анализ последовательности Sse9I показал, что этот фермент относится к классу Du т6А-метил-трансфераз. Построение девдрограммы сходства метнлтрансферал класса Вс позволило нам установить," что этот кпгсс метяяаз рсс-п дается на две предположительно монофшзетические подгруппы ферментов. Высокая эффективность предложенного метода выравнивания позволила уточнить положение мотка СМ Ш s последова-гел; ностчх мстнлтрансфераз, родственных Sse9f - CviAfI и МаШ, а таття аиапэ-гспяегш доменов метипаз Liai, Fokl и StsI.

âasiist^î^fcia^^'ibîiâsïsft щирешцшшжоз таюсе проводился с г.омощыо списанного гышй нетод;: исстрсения множественного выравнивания и деидрограмм сходства. Нами были получены множест-

Г?!ТТТ"е и "снжкм оашпы сходств sxzzzzzzzvtnivt

последовательностей зрелых беяксз иикорнашруссп. В обсяг: чсртта 5'UTRPIРЗI WB VPa ' potyA

Расунох 5

Схема строения генома пигорагвярусоа. Р1 - область-предшествешпа структурных белков (1А, 1В, 1С н 1D); Р2 -область-предшественник песгруетурных белков (2А, 2В п 2С) РЗ -

oô.'iBcib-i^eïî'Htcraenrsîa: П1стр);яурйкх Сел.«ов (ЗА, 33, 2С п 3D): гочучеивые дгпдропшпш подтверждают опубликованные ранее результаты (Staaway 1990). Па дендрогргммах выделяются кластеры, соответствующие родам лпкориаварусой: афтовнрусы, кердиоапрусы, геязтозкрусы, смешанная группа знтеро- и рпиоанрусов и эховпрус 22, который претендует на статус представителя отельного рода (ïïyypia et ai. 1992). В палом, девдрограммы сходства отдельных белков нхкодятся я согласии между собой, по крайней мерз это справедливо для статистически значимых кластеров. По-внднмому, рекомбипа-ционные события между отдаленно родственными геномами не л грата важной роли в эволюция рода пикорпавнрусов. Положение нехоторых вирусов в деидрограмме непостоянно, хроме гого, эзолгопиоппые язз-!iMooTi;o!i:eiiUi! между родами также пе могут быть установлены по отдельным белкам в силу низкой достоверности соответствующих объединений ОТЕ. Для того, чтобы прояснить эти отношения мы построили множественные выравнивания и дендрограммы сходства аминокислотных последовательностей регионов Р2 и РЗ полипротеина. В отличие от Sîanway (1990), кспользоваяшего яуклеотидные последовательности региона Р1 (гены структурных белков), в данной работе для филогенетического анализа взята неструктурно часть полнпро-теина. Вирионные белки, определяющие взаимодействие вируса с клетками-мишенями и защитными системами хозяев, могут нести сле-

ды адаптивной эволюции и отражать приспособление разных групп пнкорнавнрусов к различным системам и тканям хозяев. Внутриклеточная же среда, в которой происходит размножение пикорнавирусов, менее разнообразна, поэтому следует ожидать, что большая часть различий неструктурных белков носит неадаптивный характер и, соответственно, хорошо отражает историю дивергенции последовательностей.

В полученной нами дендрограмме (рис. б) практически все объединения OTE оказались статистически значимыми. Из дендрограммы следует, что вирус ECHO 22 родственен роду гепатовирусов; род афто-

вирусов родственен роду кардиовирусов; эн-теро- и риновирусы образуют смешанную группу, в частности, HRV 14 тяготеет к эн-теровирусам. Интересно, что по последовательностям части структурных белков (1В и 1D) вирус HRV 14 кластеризуется с другими риновируса-ми отдельно от эятеро-вирусов, что, возможно, отражает функциональное сходство

сди «21^••—а

-PU 1 hal«ñiii'(i)j

Рисунок б

Девдрсграима сходства гмиюкислотаих последовательностей неструктурных белков пихорнавирусов. Жнрпыс вертикальные линяв обозначают вершины с Рг>0.9. Обозначены рода ннкорнзвирусов: Н - гела-тозярусы; А - афговирусы; С - кардаовирусы; Я - ри-новярусы; Е - вптсрсвирусы.

вирионных белков риковирусов.

Анализ нуклеотндных последовательностей различных полио-вирусоз показал, что в то время как последовательности генов структурных белков дали устойчивую и статистически достоверную картину - кластеризация штаммов полиовнрусов совпала с их разделением на три серотипа, гены неструктурных белков кластеризовались без однозначной связи с серотипом, причем большая часть кластеров оказалась статистически незначимой. Для уточнения картины кодирующая часть полиовирусного генома была разбита нами на два фрагмента - гены структурных и гены неструктурных белков, по которым были построены дендрограммы сходства. Эти дендрограммы подтвердили, что классификация структурных белков совпадает с классификацией полиовнрусов по серотипам, в то время как эволюционная история неструктурной области генома не совпадает с ней. Анализ генов неструктурной области предполагает монофилетическое происхождение только для штаммов РУ 1, эта часть генома штаммов РУ 2 и РУ 3 по-видимому дивергировала иными путями, чем гены капсидных

белков. Анализ частот фиксированных нухлеотидных замен в полной выборке полиовирусов н в подвыборке штаммов PV 1 показал, что картина сильно различается в структурной и неструктурной областях. Так, общая частота замен а структурной области полиогшрусов примерно з 1.5 раза больше частоты замен в неструктурной области. Напротив, если рассматривать только PV 1, то оказывается, что 2 структурной области зафиксировано в 9.5 раз меньше замен, чем в неструктурной. По отношению к общей эволюционной дистанции, раздел:! ю-глсЛ штаммы вируса полиомиелита, дистянпия, разделяющая штаммы PV 1, составляет 43.9% по генам неструктурных белков и только 3.1% но генам структурных белков. Создается впечатление. что штаммы по-лновнруса приобретают сравнительно "свежие" (т.е. недавно диверги-ГГЯЫ "тр'.ттурнм* плггкон йЗ ¡¿¿тЬИ-Ю fCGSpSySpor 3JTM рекомбинации, причем происходит это sue лрг.мсЯ зззисямостя от эволюционной истории генов неструктурных белков. С другой стороны, отношение частот синонимических и несиноннмичесхих замен равно 11.39 ±1.34 для структурных генов полиовирусов в целом и только 2.61 ± 1.39 для штаммов PV 1. Это свидетельствует о том, что сравнительная консервативность структурных генов PV 1 не связана с большей стабильностью аминокислотной последовательности хапсид-ных белков, напротив, внутри сера типа последовательность белка сравнительно более яабяльнг. На этом основании можно высказать глпогезу о том, что яолновирусы периодически меняют часть гевома, кодирующую структурные белки, причем приобретаются сравнительно ;«олоиыг юоиангы, которые предположителько обеспечивают с-елек-преимущество при взаимодействии вируса с хозяином. i {служенные нами множественные гыргвиявашм и деидрограммы сходства нухлеотидных последовательностей ;енев белков пикорнави-русоз позволили сделать оценки частот различных типов эволюционных событий з группах вирусов. Гипотеза об однородном либо неоднородном характере распределения частот эволюционных событий по белкам проверялась путем дисперсионного анализа (Болч и Хуань 1979). Видно (таб. 2), что синонимические замены распределены по геному более или менее равномерно, т.е. с точки зрения частот сяон-

Оцениваемая величина Dx Dz Р (Pz'Dx)

Частота синон. замен 5.038 8.947 6.03x10"2

Частота нссинон.' замен 5.093 35.667 5.22у10"п

11л. вставок и делений 5.266 225.275 7.70x10"'°

Табляпа2

ДксисрсисипкИ гиалкз частот эволюционных событий. Их - ьнухригруцпоЕая дисперсия; Dz - мезирупповая дисперсия; P(Dz/£>j?) - вероятность равенства Dx и Dz по Крит. Фишера.

тайного мутагенеза разные участки пикорнавируеного генома практически равноценны. Различия в частотах несинонимических замен существенно более значимы, что свидетельствует о разной степени консервирования аминокислотных последовательностей соответствующих генов. Отношения частот синонимических и несинонимических замен во всех случаях существенно превышают единицу, что не дает оснований (Кимура 1985, 11а1пег & а1. 1996) отвергнуть гипотезу о преобладании нейтрального режима эволюции белков пикорнавирусов.

Кроме нухлеотидных замен в генах пикорнавирусов зафиксировано значительное число вставок и делеций. По множественным выравниваниям и дендрограммам сходства соответствующих последовательностей мы рассчитали их плотности. Во-первых, фиксация вставок и делеций представляет собой весьма редкое событие по сравнению с фиксацией замен нуклеотидов. Так, на каждую синонимическую замену приходится в среднем от 0.0006410.00027 (белок ЗР) до 0.01510±0.00343 (белок Ш) приобретенных либо потерянных оснований. Во-вторых, разные белки пикорнавирусов имеют разную чувствительность ко вставкам п делециям (дисперсионный анализ показывает существование статистически значимых различий между белками). Белки Ш, 2А и ЗА, например, фиксируют вставки и делеции много чаще, чем 1А, 2С и ЗБ. По-видимому, разная чувствительность белков к изменению длины ею структурных элементов обусловлена различиями в структурно-функциональных ограничениях на пространственную организацию белка. Одни белки (внутренний белок капсида 1А и решшкативные ферменты 2С и ЗБ, предположительно функционирующие в мультисубъединичных комплексах) теряют способность к корректным белок-белковым взаимодействиям при искажениях пространственной структуры, вызванных вставками и делециями. Другие белки (поверхностный белок капсида Ш и протеаза 2А) толерантны к подобным нарушениям при условии сохранения ключевых структурных элементов и функциональных сайтов.

Репликация РНК-содержащих вирусов сопровождается значительным числом спонтанных нуклеотидных замен, что объясняется отсутствием корректирующих и репарирующих механизмов в системах репликации РНК. Сравнением реконструированных предковых последовательностей с последовательностями, непосредственно следующими за ними на дендрограмме, были выявлены все случаи однозначно идентифицируемых синонимических замен. Такие замены в первом приближении можно считать нейтральными и, соответственно, их состав -отражающим реальный спектр частот ошибок репликационной системы (спонтанного мутагенеза). Даные для пикорнавирусов сравнивались с опубликованными характеристиками спектра спонтанного мутагенеза псевдогенов приматов (вассопе е1 а1. 1990).

По нашим данным у пнхорнагнрусо!» частота транзиций превышает частоту трансверсий в 3.64 раза. Соотношение частот транзиций и трансверсий отличается от аналогичных параметров мутационного спектра приматоя (отношение частот 4.79), хотя это отличие не"достоверно (уровень значимости различий по тесту х2 равен 6.9x10"').

Гчпотезу о симметричном либо асимметричном распределении мутаций между (+)- и (-)-цепыо генома можно проверить сравнивая частоты замен нуклеотпдоз на взаимно комплементарные с частотами встречаемости иуклготядов. Например, для псевдогенов приматов разность оАП/'шемых и наблюдаемых частот замен такого тип л недостоверна: Р(х2) равно 6.7x10' . Напротиз, у пикоршшярусов замены распределены крайне асимметрично (Р(х2)=8.1х10"139), что неудиви-1^лх.по, таг irr: enrrri (,-м- ч {->•»»«»«« ткоойааимьиьй ШХ прсп;-ходит в соотношении примерно 50:1 в пользу (+)-цспп.

Очевидно, что процесс мутагенеза в принципе может изменять соотношение частот нуклеотидов. Теория Марковских цепей утверждает, что при стабильных параметрах процесса в системе устанавливается равновесное распределение частот состояний. Такое равновесное распределение частот нуклеотидов может быть найдено при использовании вероятностей отдельных типов замен в качестве матрицы переходов Марковской цепи. Такой расчет для приматов, к при-

wepv, показывает, что ях пссзяогепы находятся в состоянии, близком к

1 ' 2

г.аепсвесиому по частотам мономеров (Fix )äl.4xlQ' ). Напротив, частоты з кодирующих последовательностях пикорнавирусов далеки от равновесных (Р(х2)£2.9хЮ"П!). Это означает, что текущиЧ процесс чутагекеза изменяет баланс оснований. Такая нерасновесность может, п частности свидетельствован» о сравнительной эволюционной молодости репликацнонной системы пикорназирусов.

Для исследования контекстной зависимости вероятности фиксации замены от иуклеоткдного контекста нами бьшн найдены чисто ш фиксации мутаций определенного основания при наличии некоторого нуклеотида в окрестностях сайта мутагенеза. Эти значения сравнивалась с частотами, ожидаемыми при независимости от контекста Авали'; гыявил следующие закономерности: вероятность фиксации мутаций оснований А и С сильно зависит от нухлеотдоногс контекста, хотя различия частот невелики по абсолютным значениям; вероятность фиксации мутаций основания Т сильно зависит от контекста справа от сайта г-гутпровання, а мутзбильиость G, напротив, от контекста слева; олнгонуклеотид CG является "горячей точкой" фиксации мутаций пн-¿орнзвирусод: замены по обоим нуклеотидам а этом контексте фиксируются более, чем втрое чаще, чем это ожидается при независимости от контекста. Другой "горячей точкой" является контекст GNG, где частота фиксации замен второго хуанина повышена более, чем вдвое;

контекст TNG, напротив, более, чем втрое снижает вероятность фиксации мутации по основанию G ("холодная точка"). Строго говора, найденные нами закономерности не являются контекстными характеристиками процесса спонтанного мутагенеза как такового, так как мы учитываем не все возникающие мутации, а только фиксированные синонимические замены (легко понять, что контекст влияет не только на вероятность появления замены, но н на вероятность того, что возникшая мутация является нейтральной).

Выводы.

1. Предложен новый метод множественного выравнивания последовательностей биополимеров, показано, что он обеспечивает высокое качество выравнивания при высоком быстродействии и пригоден для реализации на персональных компьютерах. Метод использован при анализе ряда последовательностей биополимеров.

2. Показано, что метилтрансфераза Sse9I относится к классу Du метилтрансфераз бактериальной системы рестрикции-модификации.

3. Предложено разбиение метилтрансфераз класса Du на две предположительно монофнлетические подгруппы и уточнено положение консервативных элементов последовательностей метилтрансфераз подгруппы Sse9I.

4. Проанализирована молекулярная филогения семейства пнкорнавирусов, показана близость риновирусов энтеровирусам, кардиовирусов - афтовирусам и эховируса 22 - гепатовирусам.

5. Предложена модель эволюции вирусов полиомиелита, предусматривающая происхождение серотипов путем рекомбинации РНК на границе между генами структурных и неструктурных белков.

6. Показано, что белки пикорнавирусов не имеют достоверных различий по скорости синонимической молекулярной эволюции, но достоверно различаются по скоростям фиксации несинонимических замен и по соотношению между частотами вставок-делеций и замен.

7. Проанализирован спектр спонтанного мутагенеза репликационной системы пикорнавирусов. Показано крайне неравномерное распределение мутаций по цепям РНК и отличие частот нуклеотидов от равновесных.

8. Исследована контекстная зависимость вероятности возникновения и фиксации синонимических замен у пикорнавирусов, высказано предположение о существовании "горячих" и "холодных" точек фиксации замен.

Список работ, опубликованных по томе диссертации

1.Селедцов И.А., Вульф Ю.И., Макарова К.С. Множественное

выравнивание биополимеров основанное на поиске статистически значимых общих участков // Малек. Биол. 1995. т. 29. с. 1023-1039.

2. Макарова К.С., Вульф Ю.И., Селедцов И.А., Ратнер В.А. Эволюция ретротранспозонов gypsy-rpynribi: филогенетический анализ доменов, входящих в состав POL-полипротеина. И Генетика 1995 т, 31. с. 1614-1629.

3. Wolf Y.I., Makarova K.S., Ratner V.A. Two modes of picornaviras protein evolution with differen kind of structural restrictions. // Abstracts of the Fourth Annual Meeting of the Society for Molecular Biology and Evolution, Tucson, June 1996 p. 61.

4. Вульф Ю.И., Селедцов И.А., Макарова K.C. Статистическая значимость фрашеита выравнивания - зависимость от длины последовательностей. //Тезисы докладов Второго Сибирского Конгресса по Прикладной и Индустриальной Математике (ИНПРИМ-96). Новосибирск 1996 с. 23.

5. Макарова К.С., Вульф Ю.И., Селедцов И.А. Эффективный и качественный метод одновременного построения множественного выравнивания и реконструкции филогении. //Тезисы докладов Второго Сибирского Конгресса по Прикладной и Индустриальной Математике (ИНПРИМ-96). Новосибирск 1996 с. 30.

6.Селедцов II.А, Вульф Ю.И., .Макарова К.С. Статистическая значимость фрагмента выравнивания - зависимость от однородности последовательностей. // Тезисы докладов Второго Сибирского Конгресса по Прикладной и Индустриальной Математике (ИНПРИМ-96). Новосибирск 1996 с. 35.

7. Gonchar D.A., Wolf Y.I., Degtyarev S.K. Cloning and characterization of Sse9I DNA-methyltransferase recognizing 5-AATT-3'. // Nucl. Acids Res. 1996 v. 24 pp. 2790-2792.