Бесплатный автореферат и диссертация по биологии на тему
Компьютерный контекстный анализ последовательностей ДНК мобильных генетических элементов
ВАК РФ 03.00.15, Генетика

Автореферат диссертации по теме "Компьютерный контекстный анализ последовательностей ДНК мобильных генетических элементов"

На правах рукописи УДК 575.1:577.2:681.3

РГБ ОД

Амикишиев Вагиф Гочу оглы ~ 5 МАР 2000

КОМПЬЮТЕРНЫЙ КОНТЕКСТНЫЙ АНАЛИЗ

ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК МОБИЛЬНЫХ ГЕНЕТИЧЕСКИХ ЭЛЕМЕНТОВ

(03.00.15 - генетика)

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Новосибирск 2000

Работа выполнена в Институте цитологии и геиетики СО РАН, таб. Молекулярно-генетических систем, г.Новосибирск

Научный руководитель: академик РАЕН, профессор доктор биологических наук В.А.Ратнер

Официальные оппоненты: доктор биологических наук

Защита диссертации состоится X 2000 года на утреннем

заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук (Д-002.11.01) в конференц-зале Института цитологии и генетики СО РАН по адресу: 630090, г. Новосибирск, 90, Проспект акад.Лаврентьева, 10.

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН.

Автореферат разослан " ^ " Ср 2000 г.

Ученый секретарь диссертационного совета,

доктор биологических наук А.Д.Груздев

Н.Н.Колесников

Институт цитологии и генетики СО РАН, г. Новосибирск

кандидат биологических наук С.И.Бажан

Государственный научный центр вирусологии й биотехнологии "Вектор", г. Новосибирск

Ведущее учреждение: Санкт-Петербургский

Государственный Университет, Кафедра генетики и селекции г. Санкт-Петербург

(¿0Чо.1ЪеЦО

Актуальность темы. Мобильные генетические элементы (МГЭ) являются составной частью геномных систем эукариот, занимая в среднем 10-30% их объема. Накоплены экспериментальные данные об участии МГЭ в регуляции экспрессии генов и полигенов, их изменчивости и селекции (Ратнер и др., 1992; Фурман и др., 1998; Ratner, 1998). С другой стороны, сами мобильные элементы подчинены генетическому управлению, за счет своей способности к восприятию внешних индуцирующих сигналов: теплового шока, гормонов, ткане-специфичных сигналов и т.д. (Strand, McDonald, 1985; Bilanchone et al., 1993).

Не оставляет сомнений, что чувствительность МГЭ к внешним воздействиям должна иметь структурную основу, а участие М1Э в молекулярно-генетических системах управления должно осуществляться посредством наличия в ДНК МГЭ соответствующих управляющих сайтов (энхансеров, сайленсеров и пр.).

Закономерности и различия в структурной организации геномов МГЭ могут быть ключом для понимания и предсказания их функционального поведения. Существующие на сегодняшний день экспериментальные работы описывают реализацию каких-либо частных функций или способностей МГЭ, но они не дают общего представления о потенциальных возможностях конкретного МГЭ в молекулярно-генетических системах управления. Основываясь на концепции МГЭ как возможных подвижных "кассет функциональных сайтов", способных вносить свой вклад в экспрессию генов, генетическую вариабельность и эволюцию видов, представляло интерес подробное исследование геномов МГЭ на наличие разнообразных регуляторных сайтов.

Цель и задачи. Целью работы явился компьютерный поиск мотивов регуляторных сайтов вдоль последовательностей ДНК 19-ти мобильных элементов разных классов, а также анализ их распределения с точки зрения обеспечения их возмож: ых молекулярных фукшшй.

В задачи работы входило:

1. Создание ряда компьютерных программ, позволяющих статистически обосновать и визуализировать результат компьютерного поиска мотивов регуляторных сайтов по последовательностям ДНК.

2. Комплектация компьютерной базы данных секвенированных нуклеотидных последовательностей МГЭ и оптимизация содержания исходной базы данных регуляторных сайтов на основании современных представлений об их функциональной значимости и синонимии.

3. Сканирование компьютерными методами последовательностей ДНК 19-ти МГЭ на наличие мотивов регуляторных сайтов из пересмотренной базы данных.

4. Сравнение сводных картин распределения выкаченных мотивов функциональных сайтов по последовательностям ДНК 19-ти МГЭ со случайными последовательностями такой же длины и такого же нуклеотидного состава.

5. Контекстный анализ распределения мотивов регуляторных сайтов МГЭ с точки зрения обеспечения их возможных молекулярных функций.

6. Сравнение характера распределения мотивов функциональных сайтов в геномах близкородственных МГЭ и МГЭ разных классов между собой с целью объяснения их функциональной гомологии и различий.

7. Поиск возможных новых закономерностей в распределении мотивов регуляторных сайтов в последовательностях ДНК МГЭ с целью объяснения наблюдаемых и для предсказания новых особенностей их функционирования.

8. Оценка возможной взаимосвязи распределения цуклеотидного состава последовательностей МГЭ и выявленных в их геномах мотивов функциональных сайтов.

Научная новизна. Создан ряд компьютерных программ, позволяющих статистически обосновать и визуализировать результат поиска мотивов функциональных сайтов вдоль любой последовательности ДНК. Создана компьютерная база данных МГЭ, состоящая из отсеквенированных нуклеотидных последовательностей 40-ка мобильных элементов. Оптимизировано содержание исходной базы данных регуляторных сайтов (277 единиц).

Впервые последовательности ДНК 19-ти МГЭ разных классов были просканированы на наличие мотивов регуляторных сайтов. Статистически обосновано, что геномы МГЭ содержат неслучайные сгущения мотивов функциональных сайтов, тяготеющие во многих случаях к возможным регуляторным зонам: промоторным районам, ЬТ!^, началам ОЯНэ, началам доменов 01^ и т.д.

Анализ сгущений позволил объяснить известные молекулярные функции МГЭ на основании имеющихся в их структуре мотивов регуляторных сайтов. Были предсказаны возможные позиции старта и окончания транскрипции полноразмерных мРНК МГЭ. Предсказана возможность независимой транскрипции доменов ОИК и ОЯБЗ у некоторых (не всех) исследованных ретротранспозонов. Найдена новая закономерность в распределении мотивов функциональных сайтов: наличие повышенного числа мотивов сайтов рецепции внешних сигналов перед доменами обратной транскриптазы и интегразы ретроэлементов.

Выявлена положительная корреляция распределения мотивов функциональных сайтов в последовательностях МГЭ с распределениями состава нуклеотидов (%А+Т).

Научно-практическая ценность. Созданная компьютерная база данных 40-ка МГЭ является удобной коллекцией нуклеотидных последовательностей МГЭ разных классов дтя 'Использования и приложений.

Оптимизированная компактная и представительная база данных регуляторных сайтов и метод ее использования позволяют быстро и эффективно проверить любую последовательность ДНК на наличие мотивов регуляторных сайтов с целью прогнозирования возможных свойств исследуемой последовательности ДНК.

Анализ данным методом последовательностей ДНК 19-ти мобильных элементов позволил на основании выявленных регуляторных сайтов объяснить общие молекулярные функции МГЭ и характерные особенности представителей

2

разных классов; высказать предположения о механизме осуществления ряда тастных молекулярных функций МГЭ, которые требуют, тем не менее, дальнейшей экспериментальной проверки.

Данные о наличии мотивов регуляторных сайтов в геномах 19-ти МГЭ )вляются ценным информативным материалом доя экспериментальной генетики мобильных элементов в качестве справочника возможных потенциальных свойств л специфики функционирования конкретных МГЭ. Полученные результаты представлены в виде \УеЬ-страницы в Интернет (адрес: 1шр://\уш\у з^ч. bionet.nsc.ru/systems/mge/).

Выявленный нами избыток регуляторных сайтов и неслучайность их эаспределения в геномах МГЭ служат дополнительным подтверждением теории использования мобильных элементов молекулярно-генетическими системами управления в качестве "подвижных кассет функциональных сайтов", способных, томимо собственных молекулярных функций размножения и транспозиций, указывать модифицирующее регуляторное действие на соседние гены и полигены.

Упробания работы. Основные результаты работы были представлены на Международной конференции по моделированию и компьютерным методам в .юлекулярной биологии и генетике (Новосибирск, 1990), Франко-советском шмпозиуме по регуляции и экспрессии генов (Новосибирск, 1995), ХХХШ-й Международной научной студенческой конференции (Новосибирск, 1995), Втором I Трет'ем сибирских конгрессах по прикладной и индустриальной математике "1МРММ", Новосибирск, 1996, 1998), Международной конференции, юсвященной 80-летию со дга рождения академика Д.К.Беляева (Новосибирск, 1997), Международной конференции "Биоинформатиха: структура и регуляция ■енома" (Новосибирск, 1998), а также на отчетных сессиях Института цитологии и «нетики СО РАН (1996, 1999).

По теме диссертации опубликовано 10 работ, 3 из них - в рецензируемой 1ечати.

Структура и объем работы. Диссертация состоит из введения, обзора литературы глава 1), описания объектов и методов исследования (глава 2), изложения юзультатов (глава 3), обсуждения (глава 4), выводов, списка литературы и трех [риложений.

Диссертация изложена на 198 страницах машинописного текста, содержит 39 >исунков и 9 таблиц. Список литературы включает 278 источников, в том числе :29 иностранных.

Толожсния. выносимые на защиту. Предметом защиты настоящей диссертации вляются следующие положения:

геномы мобильных элементов содержат "сгущения" мотивов функциональных сайтов, достоверно отличающиеся от случайных;

геномы мобильных элементов содержат избыточное количество мотивов регуляторных сайтов, способных обеспечить основные молекулярные функции

МГЭ: экспрессию генов (ORF) МГЭ, воспроизведение (транспозицию) МГЭ, управление воспроизведением МГЭ внешними сигналами, модифицирующее действие со стороны МГЭ на соседние гены и полигены;

присутствие перед ORFs и их сегментами, отвечающими доменам ферментов транспозиции, инициирующих мотивов является свидетельством в пользу возможности их независимой транскрипции и трансляции;

наличие положительной .корреляции между распределением числа мотивов регуляторных сайтов в различных районах геномов МГЭ и процентного соотношения АТ-нуклеотидов в этих районах.

Объекты исследования. В качестве объектов были взяты 19 МГЭ разных классов - транспозоны: Р-элемент и hobo; LTR-содержащие ретротранспозоны gypsy-группы: mdg2, mdgl, Del, 2 gypsy из разных видов дрозофилы, 17.6, 297, Suri, Ted, Tom, Ulysses; copia-группы: copia, copia-white и 1731; LTR-несодержащие ретротранспозоны Line-1 human, Line M.Mus, и jockey. Исследуемые МГЭ секвенированы из геномов эукариот разных таксонов: растении, животных (насекомых, иглокожих и млекопитающих, включая человека).

сформирована В.В.Соловьевым (Soiovyov et al., 1992а) и увеличена И.В.Морозовой до 350 единиц. Мы пересмотрели и оптимизировали ее содержание, в результате чего объем сократился до 277 единиц. Регуляторные сайты в базе классифицированы на следующие группы:

1. Сайты инициации и терминации репликации и транскрипции.

2. Энхансеры и сайленсеры различных генов хромосом, вирусов и т.д.

3. Сайты, опознаваемые общими клеточными белковыми факторами транскрипции и трансляции.

4. Сайты, опознаваемые белками-рецепторами индуцирующих сигналов (теплового шока, ионов тяжелых металлов, лекарств, гормонов, голодания, цАМФ и др.).

5. Сайты, опознаваемые ткане- и локусспецифичными белковыми факторами и др.

6. Сайты рекомбинаций, перестроек и т.п.

Компьютерные методы. Мы использовали разработанный ранее В.В.Соловьевым и соавторами (Soiovyov et al., 1992b) метод контекстного анализа (пакет "КОНТЕКСТ", программа SITE). Он основан на предположении, что известные функциональные сайты реально образуют семейства с устойчивым консенсусом. Метод производит поиск несовершенных мотивов, отличающихся от сайтов (или консенсусов) из базы данных не более чем на заданное небольшое число замен нуклеотвдов. Анализ генома МГЭ осуществлялся при помощи сканирующего окна размером 75 пн при шаге сканирования 15 пн ("жесткие критерии поиска") или реже, когда последовательность МГЭ разбивалась на 15 сегментов одинаковой длины с перекрыванием слева и справа по 10 пн, а поиск мотивов велся по-сегментно при помощи окна такого же размера при шаге сканирования 1

МАТЕРИАЛЫ И МЕТОДЫ

Исходная база данных (130 единиц) была

нуклео'.ид ("мягкие критерии поиска"). Последний позволяет выявить большее количество мотивов функциональных сайтов, но с большим числом ошибок.

Для визуализации и статистической оценки результатов поиска мотивов регуляторных сайтов были созданы следующие программы: Begga - в виде диаграммы показывает распределение числа мотивов регуляторных сайтов вдоль последовательности МГЭ (па оси абцисс - геном МГЭ, по оси ординат - вдело регуляторных сайтов) (рисЛс). Tvg-B - показывает конкретное расположение вдоль МГЭ мотивов 53-х выборочных регуляторных сайтов четырех групп (рис.la). Vs - показывает конкретное расположение вдоль МГЭ мотивов всех регуляторных сайтов из базы данных. Server - создает на основе имеющейся нуклеотидной последовательности случайные последовательности такой же длины и такого же нуклеотидного состава. Stat3 - с помощью критерия х7 оценивает статистическую достоверность сгущений мотивов регуляторных сайтов. Согг -.статистически оценивает коэффициент корреляции между числом регуляторных сайтов в разных районах МГЭ и процентным содержанием в них АТ-нуклеотидов.

Программа PROB для подсчета биноминального распределения была любезно предоставлена Келем А.Е.

Статистическая обработка результатов. Кроме перечисленных методов корреляционного анализа и биноминального распределения, в работе использовались U-критерий' Вилкоксона-Манна-Уитни и непараметрический критерий знаков (Ллойд и др., 1990).

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ОБСУЖДЕНИЕ

1. Распределение мотивов функциональных сайтов в последовательностях ДНК МГЭ.

Последовательность ДНК 19-ти МГЭ была просканирована при жестких критериях поиска на наличие регуляторных сайтов. Далее для каждого МГЭ создавались 50 случайных последовательностей такой же длины и нуклеотидного состава, что сам МГЭ, и каждую из этих случайных последовательностей также проверяли на наличие регуляторных сайтов.

В отличие от случайных последовательностей, в реальных МГЭ обнаруживаются заметные ргущения потенциальных регуляторных сайтов (на рисЛс это сгущения, достигающие или расположенные выше 95%-го уровня достоверности).

У 14-ти МГЭ выяаленные сгущения мотивов функциональных сайтов в соответствии с критерием xf явно неслучайны (вероятность случайного возникновения подобных сгущений колеблется от 1,91-10"2 у НоЬо-транспозона до 6,73-10"5 у Ulysses). Случаю 14-ти из 19-ти по непараметрическому критерию знаков достаточно, чтобы считать "неслучайность" сгущений - универсальным свойством гекомов МГЭ.

С помощью биноминального распределения оценивалась привязанность

выявленных сгущений к возможным регуляторным зонам. Последовательность МГЭ разбивалась на две части: кодирующую (ORFs) и некодирующую, или регуляторную (LTRs, промежутки между ORFs и LTRs). У всех ретротранспозонов, за исключением Ted бабочки и Line мыши, регуляторные зоны содержат достоверно большее количество мотивов регуляторных сайтов, чем кодирующие области (вероятность случайной насыщенности регуляторных областей геномов МГЭ мотивами колеблется от 3,21-10*2 для 297-ретротранспозона до 3,60-10"13 для Тот).

Как показал анализ, каждый МГЭ использует свою собственную стратегию расположения возможных регуляторных зон вдоль генома. У ряда мобильных элементов ORFs начинаются в районах с максимальным количеством мотивов регуляторных сайтов (наиболее яркие примеры - Ulysses, Suri, DEL, 17.6, 297, Line мыши), у других в местах с минимальным числом мотивов (Ted, 2 элемента Copia, jockey, Hobo), или с их средним числом (gypsy из двух видов дрозофилы, mdg2, mdgl, Tom, 1731). В двух последних случаях заметные сгущения мотивов регуляторных сайтов расположены, как правило, левее или правее начала ORF.

Общее число найденных регуляторных сайтов 5-ти групп в МГЭ составляет 250-600 мотивов всех 5-ти групп (зависит от длины МГЭ), из них разных 80-100. Композиционный состав регуляторных сайтов между МГЭ существенно различается - даже между близкородственными mdgl и mdg2 на 30%.

Подходящие мотивы в сгущениях, приуроченных к предполагаемым регуляторным зонам, могут быть использованы для осуществления основных молекулярных функций МГЭ: экспрессии генов (ORF) МГЭ; воспроизведения (транспозиции) МГЭ; управления воспроизведением МГЭ внешними сигналами; модифицирующего действия со стороны МГЭ на соседние гены и полигены.

2. Анализ мотивов регуляторных сайтов mdgl с точки зрения обеспечения его возможных молекулярных функций

В диссертации были подробно проанализированы геномы шести МГЭ, здесь мы приводим описание распределения мотивов регуляторных сайтов по последовательности LTR-содержащего ретротранспозона gypsy-rpynnbi mdgl Dr.melanogaster.

Геном mdgl содержит 2 малых и 2 больших ORFs. Функции ORFs экспериментально не изучены, однако в последовательности гипотетического полипротеина, отвечающего большому ORF2, выявляются мотивы, сходные с центрами ферментативной активности ретровирусов, последовательно - протеазы, обратной транскриптазы, рибонуклеазы H и интегразы (ферменты репликативного комплекса). ORF1 является гомологом ретровирусного гена gag, который кодирует белки сердцевины капсида (Yuki et al., 1986).

При использовании жестких критериев поиска в mdgl выявлено 515 мотивов функциональных сайтов. Большинство выявленных мотивов не может быть функциональным. Для обеспечения основных молекулярных фунций mdgl

достаточно использовать несколько десятков выявленных сайтов из многих сотен обнаруженных "ложных" или несовершенных мотивов. Тем не менее их присутствие является аргументов в пользу определенной функции и требует экспериментальной проверки.

в 748 1494 2214 2992 3748 4488 3234 3984 6732 ®>

гриппа^

1LTR sCCFl »0RF2 ОН5!

I I—I_гп Г

ВТ Rh QRF2

W

rLTS

442 577 921 I It759 2333 д 3382 3968 4699 I 5153 5680 6313 £671 I 74S0

1316 1555 зоеэ зезэ 4805 7039

О 500 1900 1500 HflOG 2500 Ж)0 3500 -1000 4500 5000 r- -u;J Tfido

15(1 1-----1-1- 7—--;--i-H-—H-i-rf-Г-—-—+-

9 1» 11 12 13 14 15

Рис. 1. а) - Выборочное распределение выявленных мотивов функциональных сайтов по

7

последовательности ДНК пи^1. Обозначения: по оси абцисс - последовательность ДНК мобильного элемента в пн; по оси ординат - присвоенные нами номера регуляторных сайтов (53 выборочных сайта); 1-я группа - сайты инициации и терминами репликации и транскрипции; 2-я группа - энхансеры и сайленсеры различных генов хромосом, вирусов и т.д.; 3-я группа - сайты, опознаваемые общими клеточными белховыми факторами транскрипции и трансляции; 4-я группа - сайты, опознаваемые белками-рецепторами индуиирующих сигналов; стрелки - показывают найденное положение регуляторных сайтов на левонаправленной (стрелка влево) или правонаправленной (стрелка вправо) цегш ДНК.

b) - Блок структура последовательности ДНК пк1о1 (генетическая карта). Обозначения. 1ЬТЯ и rL.TR - длинные прямые концевые повторы; 5(ЖР1, $ОЯР2 - малые открытые рамки трансляции; ORFl, СЖР2 - большие открытые рамки трансляции; мотивы аминокислотных последовательностей ферментативных доменов: Р - протеазы, ЛТ -обратной транскриптазы, ЯН - рибопукпеазы Н, 1 - интегразы; цифры - позиции (пн.) от начала последовательности ДНК.

c) - Сводное распределение выявленных мотивов функциональных сайтов по последовательности ДНК Обозначения: по оси абсцисс - номера сегментов генома, каждый размером 1/15 длины данного МГЭ; по оси ординат - суммарное число нуклеотидов, входящих в мотивы функциональных сайтов и попадающих в сканирующее окно размером 75 пн; позиция ординаты соответствует левой границе окна; верхняя прямая линия - 95%-й уровень неслучайности сгущений мотивов регуляторных сайтов; нижняя прямая линия - усредненное число мотивов регуляторных сайтов такой же длины и такого же нуклеотидного состава, что и реальный МГЭ.

Сравнение распределения функциональных сайтов с блок-структурой mdgl показывает, что сгущения мотивов сайтов заметно коррелируют с положениями возможных регуляторных зон в LTR и вблизи начал большинства ORF и их доменов.

В 1LTR mdgl (0-442 пн) выявлены два сгущения мотивов, практически все принадлежащие к 1-й группе. Среди них сайты, инициирующие транскрипцию: правоориентиованный ТАТА-бокс (№ 1, позиция 318 пн); два альтернативных сайта инициации транскрипции, характерных для gypsy-подобных ретротранспозо'нов (№ 2, позиция правоориентированного 313 пн). Из сайтов, терминирующих транскрипцию в 1LTR найдены:

три сигнала полиаденилирования, два из которых правонаправлены (№ 6 и № 7, позиции 355 и 366 пн);

два сигнала терминации транскрипции у дрожжей (N2 8). Таким образом, в LTRs имеются мотивы сайтов инициации и терминации транскрипции РНК-полимеразой II в соответствующих взаимных положениях, что и позволяет использовать их дчя объяснения транскрипции полноразмерных РНК mdgl. При этом в левом LTR должна быть погашена активность терминальных знаков. 1LTR и rLTR совершенно идентичны, поэтому различия в их функции могут возникнуть только за счет их взаимодействия со смежными сегментами как внутри, так и вне mdgl. В частности, одним из средств взаимодействия могло бы быть образование вторичных "шпилечных" структур, которые способны выполнять

регуляторную роль (Уапо?5ку1 1987).

Известно, что ЬТЯ ретротранспозонов имеют структуру Ш-К-Ш. Левая граница сегмента К определяется положением старта транскрипции, а правая цтаница - положением сайта полиаденилирования. Транскрипция полноразмерной РНК МГЭ начинается на левой границе участка Я левого ЬТЯ и заканчивается на правой границе Я правого ЬТЯ. Для т<^1 есть экспериментальные данные о позициях начала и окончания транскрипции (АгкЫроуа е! а1., 1986). По экспериментальным данным транскрипция начинается с 319-320 нуклеотида, сразу после сайта № 2. По нашим результатам, сайт № 2 действительно занимает 313319 позиции. Кроме того, нами выявлен дополнительный возможный старт транскрипции из сайта № 2 - в позиции 382 пн. Далее, по экспериментальным данным терминация транскрипции происходит либо на 375-380 пн, либо на 387392 пн, в обоих случаях через 21-22 пн правее сайта полиаденилирования. Мы нашли, что сайты полиаденилирования действительно начинаются в позициях 355 и 366 пн.

; i

нГ i?

L? i? 23

200

S.f.

!LTR

36 7

310 '370

sORFl

4. indue

Рис. 2. Результат сканирования ILTR mdgl на наличие и расположение регуляторных сайтов 5-ти групп. Обозначения. По оси абцисс - последовательность ДНК мобильного элемента в пн; по оси ординат - присвоенные нами номера регуляторных сайтов из базы длимых (277 единиц): 1-я группа (l.ori.eu.) - сайты инициации и терминации репликации и транскрипции; 2-я группа (2.enhan.) - энхансеры и сайленсеры различных генов хромосом, вирусов и т.д.; 3-я группа (3. fg., transi.) - сайты, опознаваемые общими клеточными белковыми факторами транскрипции и трансляции; 4-я группа (4. indue.) -сайты, опознаваемые белками-рецепторами индуцирующих сигналов; 5-ая группа (5. fs.) -

сайты, опознаваемые ткане- и локусспецифичиыми белковыми факторами. Стрелки -показывают найденное положение регуляторных сайтов на левонаправленной (стрелка влево) или правонаправленной (стрелка вправо) цепи ДНК.

В LTR mdgl присутствуют также мотивы нескольких ARS (autoreplicating site), способных начать репликацию. Эти сайты могут быть использованы на поздних этапах воспроизведения двуцепочечной ДНК мобильного элемента. Другой сайт 1-й группы SAR А бокс дрозофилы (№ 15) - способен разворачивать домены хроматина перед репликацией и транскрипцией.

1-е сгущение мотивов функциональных сайтов, расположенное за 1LTR, находится в начале малого ORF1 (550-730 пи). Из инициирующих сайтов здесь найдены: ТАТА-бокс, upstream элемент промотора гена коальбумина (№ 4), мотив промотора вирусов человека и, с помощью мягких критериев поиска - мотив начала трансляции (№ 17), а также несколько общеклеточных сайтов, что повышает вероятность транскрипции sORFl. Здесь не найдено сайтов терминации транскрипции, что вполне логично для сгущения, расположенного в промоторном районе. В сгущении выявлены также 2 мотива энхансеров, теоретически способные модулировать транскрипцию sORFl.

Кроме того, в сгущении найден сайт праймера обратной транскрипции (№ 9). Он расположен классически в некодирующей области за левым LTR.

Здесь выявлены все функциональные сайты, необходимые для терминации транскрипции sORFl и инициации (плюс энхансерной модуляции) транскрипции sORF2. В этом и следующем сгущении расположены многочисленные сайты SAR А и Т боксов дрозофилы (№ 15 и № 16). Именно они придают такую высоту этим двум сгущениям.

111-е сгущение расположено в интервале между малым и первым большим ORF (1500-1800 пн). Здесь имеются три терминирующих транскрипцию мотива (№ 6, позиции 1506 и 1631 гш; № 8, позиция i486 пн), что позволяет предполагать возможность прерывания транскрипции за вторым малым ORF. Последнее экспериментально доказано на репортерном гене хлорамфенилацетилтрансферазы, присоединенном к разной длины лидерной последовательности mdgl (Черкасова, Ильин, 1990).

В сгущении присутствуют два правоориентированных ТАТА-бокса (№ 1), способных начать транскрипцию большого ORF, найденный с помощью мягких критериев поиска мотив начала трансляции (№ 17), а также многочисленные мотивы начала репликации ДНК: ARS и ori. Из сайтов других групп в сгущении присутствует дважды повторенный мотив энхансера гена иммуноглобулина (№ 20).

Далее идет область бедная сгущениями мотивов регуляторных сайтов, однако в районе перекрывания ORF1 и ORF2 наблюдается более плотное их расположение, впрочем, не отличающееся достоверно от случайных последовательностей. В этом районе найдены мотивы:

расположено в интервале между малыми ORF (1200-1400 пн).

ТАТА-боксы право- и левоориентированные (№ I, позиции 2982 и 3101 пн), способные образовывать шпилечные структуры и начать автономную транскрипцию ORF2;

четыре upstream элемента промотора гена коальбумина (Ns 4);

четыре сайта инициации трансляции (№ 18. позиции правоориентированных

2876 и 2899 пн);

мотив самосплайсирующихся интронов, который может использоваться при созревании общего ORFl-ORF2-TpaHCKpHnra. Из терминирующих сайтов здесь присутствуют:

правоориентированный сигнал полиаденилирования (N° 6, позиция 3058 пн) и терминатор транскрипции мРНК дрожжей. Эти сигналы способны завершить ■ ранскрипиию первого большого ORF mdgl. Кроме того, в сгущении выявлены многочисленные мотивы начала репликации, энхансерный сайт и сайты общеклеточных белков. Найденные сайты дают теоретическую возможность ORF2, также как и предыдующим ORFs, независимо транскрибироваться и транслироваться.

1У-е сгущение находится между доменами рибонуклеазы Н и интегразы (5200-5800 пн). Здесь находятся два правоориентированных ТАТА-бокса (№ 1), неканонический сигнал начала транскрипции (№ 2), а также upstream элемент промотора гена коальбумина (№ 4). С помощью посешентного анализа выявлен мотив начала трансляции (№ 17). Все это говорит о возможности независимой транскрипции домена интегразы.

Кроме того, в интервале между доменами присутствуют 7 терминирующих транскрипцию мотивов (№ 6, № 7, № 8), четыре из которых правоориентированы и способны заканчивать транскрипцию перед доменом интегразы. Вероятно, каждый домен ORF2 mdgl может быть независимо транскрибирован и транслирован.

Обращает внимание факт наличия в данном сгущении большого числа сайтов 4-й группы. Если они функциональны, то транскрипция домена интегразы может регулироваться внешними сигналами, в том числе тепловым шоком. Всего в последовательности mdgl имеется 14 сигналов теплового шока (сайты № 41 и N» 43; - восемь из них находятся перед и внутри домена интегразы.

Последнее У-е сгущение расположено между ORF2 и правым LTR (66007050 пн). Весьма логичным в конце кодирующей области было обнаружить большое число терминальных сайтов: 15 сигналов полиаденилирования (№ 6), сигнал .»роцессинга мигохонлриальных генов дрожжей и др.

Помимо терминальных здесь имеются сайты инициации транскрипции: № 2 и сайт связывания РНК-полимеразы III. Активация этих сайтов способна приводить к транскрипции соседних справа от мобильного элемента областей генома.

Таким образом, выявленные нами мотивы регуляторных сайтов позволяют эбеспечить основные молекулярные фукнции mdgl.

3. Сравнительный анализ распределения ряда мотивов функциональных сайтов в геномах 19-ти МГЭ

Компьютерный анализ последовательностей ДНК 19-ти МГЭ позволил выявить следующие закономерности и особенности в распределении ряда мотивов регуляторных сайтов.

На основании наших результатов подтверждается мнение других авторов, что транскрипция gypsy-подобных ретротранспозонов начинается не с ТАТА-бокса. а с так называемого Inr-сайта - альтернативного сайта начала транскрипции (№ 2). Действительно, мотйв этого сайта присутствует в LTRs большинства исследованных ретротранспозонов. Однако, в LTRs mdg2 дрозофилы и Suri иглокожих он отсутствует, в то время как в подходящих для начала транскрипции местах имеются правоориентированные мотивы ТАТА-бокса (№ 1), с которых, вероятно, и начинается транскрипция полноразмерных РНК этих МГЭ. Наоборот,

Таблица 1.

Выявленные возможные позиции начала и терминации транскрипции у 6-ти мобильных элементов, принадлежащих разным классам и подклассам.

Нашапие МГЭ 1.1 паи. пи) Инициирующие сайты Терминирующие сайги

Mdg2 (0-7440) Nj I- 236 Ns 1*: 35, 245, 318 № 6: 6993, 7364 № 8: 6964, 7033, 7039, 7044, 7372

Md£l (0-7480) № 1: 318 № 2: 313, 382 № 6: 7373, 7404

Del (0-9345) № 1: 1022,4518, 2077, 2277, 2383, 2385 № 2: 219, 274, 608, 736. 823, 1945 № 6: 8092, 8499, 8767, 9211 № 8: 7026, 7366, 7879, 8470, 8474, 8478. 9015

Copia (0-5146) № 1: 197, 256, 263 № 6* - 12 правоор.мотивов, подходящие - 5074, 5087, 51 N" 8* - 9 правоор.мотивов, подходящие - 5099. 5103. 511

Une-I (0-6050) № 1*: 894, 896 № 2»: 75, 83, 107, 231, 273. 299. 394. 810 № 8: 5971 № 6*: 6021

Р-злеме"т (0-291)7) № I*: 52 Ns 2": 64 № 8: 289! № 6»: 2771 № 8*: 2854, 2859, 2865

Примечание. * - означает, что сайты найдены только с применением более мягких критериев поиска.

у Copia-злемента в LTR отсутствует Inr-сайт, но имеется в подходящих для считывания местах сайт № 1, что подтверждает хорошо известный факт о начале транскрипции МГЭ этой группы с ТАТА-бокса. В промоторной области LTR-несолержашего Line-элемента человека отсутствуют полноценные и ТАТА-боксы, и альтернативным сайт, и сайты для связывания РНК-полимеразы III. Однако, применение мягких критериев поиска выявило ряд несовершенных мотивов

данных сайтов, что позволяет предполагать возможность успешной транскрипции данного МГЭ.

Нами выяснены возможные сайты терминации транскрипции полноразмерных РНК МГЭ. Анализ 17-ти ретротранспозонов показал, что у 14-ти из них в правом терминальном повторе присутствует классический сайт терминации транскрипции CN" 6) в подходящих для завершения считывания позициях. Лишь у Line-1 человека и двух Copia-элементов он отсутствует. Эти МГЭ используют либо несовершенный мотив сайта № 6, либо сайт иного нуклеотидного состава, например. № 8 (сайт терминации транскрипции у дрожжей). У транспозонов Р и Hobo сайт № 6 на З'-конце генома не обнаружен. Вероятно, это связано с тем, что транспозиция этих МГЭ происходит без стадии образования РНК. Им нет необходимости в транскрипции полноразмерной РНК элемента. Для успешной транспозиции достаточна транскрипция гена, кодирующего белки транспозазы и других. На З'-конце этого гена действительно правоориентированный сайт № б присутствует как у Р-элемента, так и у Hobo.

Другим интересующим нас сайтом был мотив обратной транскрипции (№ 9). Он служит затравкой для синтеза ДНК с РНК мобильного элемента. Этот сайт должен располагаться у LTR-содержащих ретротранспозонов за левым LTR в некодирующей области перед ORF. У mdgl мы действительно нашли его в 1Ю1ИЦИТ 532 пн перед sORFl. Однако, в этом районе данный сайт присутствует не у всех МГЭ этого подкласса, а лишь у 6-ти, причем все они принадлежат к gypsy-группе: mdgl. Ulysses, Tom, 297, 17,6 - МГЭ дрозофилы и Ted бабочки. Присутствующий в нашей базе данных сайт праймера обратной транскрипции вероятно является специфичным для большинства ретротранспозонов gypsy-Iруины насекомых.

В то же время присутствие этого мотива в начале кодирующей области у всех трех ретротранспозонов copia-группы может свидетельствовать о том, что его локализация не столь эволюционно консервативна, и экспериментально полученные на сегодняшний день результаты не исчерпывают всех возможных вариантов его локализации.

Нами проверялось также наличие инициирующих транскрипцию сайтов перед каждым ORF ретротранспозонов. Подавляющее большинство ретротранспозоноЕ имеют перед или в начале всех ORFs мотивы сайтов № 1 и/или № 2. Исключенш составляет mdg4 Dr.melanogaster, вблизи начал всех трех ORFs которого не: инициирующих сайтов. Для подробно исследованных 6-ти МГЭ перед ORF: показано наличие мотивов сайтов начала трансляции. Таким образом, участк! ДНК, предшествующие малым и большим ORF, могут представлять coöoi регуляторные зоны независимой транскрипции и трансляции, подчиненны управлению. Реальность таких вариантов может быть подтверждена тольк экспериментальным обнаружением соответствующих продуктов синтез (транскршлтов, полипептидов).

Нами показано наличие мотивов инициирующих транскрипцию сайтов перед доменами ферментов репликативного комплекса ретротранспозонов: протеазы, обратной транскриптазы, рибонуклеазы H и интегразы. Мотивы инициирующих транскрипцию сайтов присутствуют перед всеми доменами ORF у ретротранспозонов: mdg2, mdgl, Line-1 и Ulysses. У первых трех проверялось также наличие сайтов, шшциирующих трансляцию этих доменов. Присутствие вблизи начал доменов ферментов репликативного комплекса мотивов инициирующих сайтов свидетельствует в пользу возможности их независимой транскрипции и трансляции.

У ретротранспозона Ted нет инициирующих сайтов ни перед одним доменом ферментов репликативного комплекса, что подразумевает неспособность доменов Ted к атгономной транскрипции. У gypsy из Dr.virilis и Dr.melanogaster, а также 1731-племенIа мотивы инициирующих сайтов найдены только перед доменом интегразы. Если наличие этих мотивов полагает возможность независимой транскрипции доменов, то их отсутствие у ряда МГЭ может отражаться на их обшей мобильности или связано со специфическими механизмами регуляции транспозиций данных МГЭ, например, при индукции внешними сигналами.

Нами показано присутствие разнообразных энхансерных мотивов (в среднем около 20-ти на каждый МГЭ) практически во всех сгущениях исследованных МГЭ, что создает большое потенциальное разнообразие вариантов управления транскрипцией как внутри МГЭ, так и по отношению к окружающим генам и полигенам. Поскольку функции энхансеров могут распространяться вдоль цепи ДНК до 100 тпн и осуществляться в транс-комбинациях, надо полагать, что присутствующие в 1LTR мобильных элементов мотивы сайтов инициации транскрипции могут быть подчинены любому из энхансеров в структурах МГЭ fMillier, Schaffner. 1990; Guarente et al., 1992).

Нами показано присутствие в геномах МГЭ мотивов разнообразных сайтов рецепции внешних индуцирующих сигналов: теплового шока и других стрссснрующих факторов, гормональных, цАМФ, иммунных, тканеспецифичных анналов и др. Однако большинство из них расположено не в LTRs, как требует классическая схема индукции, а перед доменами ферментов репликативного комплекса. Из 19-ти взятых нами в рассмотрение МГЭ эти сайты присутствуют в терминальных повторах лишь у трех: mdgl дрозофилы, DEL растений и Line мыши. В то же время для многих МГЭ с отсутствием сайтов теплового шока в промоторных районах показана температурная индукция транспозиций (Ратнер и др.. 1992).

С помощью биноминального распределения была статистически оценена достоверность концентрации сайтов рецепции внешних сигналов перед доменами обратном транскриптазы и интегразы суммарно у всех 17 исследованных ретротранспозонов. Сравнивалась плотность расположения сайтов 4-й группы по всей длине ДНК МГЭ, с одной стороны, и в интервале перед доменами обратной транскриптазы (плюс 1/3 ее длины) и интегразы (плюс i/3 ее длины). Выяснилось, что вероятность случайного расположения наблюдаемых сгустков мотивов

14

регуляторных сайтов 4-й группы составляет для домена обратной транекриптазы 1.80* 10'8 , а для домена интегразы - 2,78*10"'° , т.е., иными словами, преимущественное расположение мотивов регуляторных сайтов перед исследуемыми доменами носит не случайный характер, и, по-видимому, функционально необходимо. Это свойство геномов МГЭ ранее нигде описано не было.

Между тем существует экспериментальная работа, где показана ключевая роль обратной трапскриптазы в запуске цикла ретротранспозиции (Резник и др., 1995). Согласно их исследованиям индукция транспозиций при внешних воздействиях происходит за" счет увеличения количества активного фермента обратной транскриптазы. Нами, в свою очередь, указана теоретическая возможность независимой экспрессии отдельных доменов ORF, в том числе обратной транскриптазы и интегразы.

4. Аналнз нуклеотидного состава МГЭ.

Одной из характеристик любого генома является процентное отношение содержание А+Т и G4C пар иуклеотидов. Анализ нуклеотидной последовательности 19-ти МГЭ показал, что ДНК мобильных элементов содержит также значительно больший процент АТ-нуклестидов по сравнению с GC, в среднем 61% ( у Ulysses AT/GC=I, п остальных МГЭ АТ-нуклеотиды занимают от 54 до 67% последовательности ДНК элемента). Возможно, эта особенность композиционного состава МГЭ - результат естественной селекции на легкоплавкость, и таким образом, в какой-то мере на лучшую способность к транспозициям.

Поскольку геном МГЭ представляет собой некую "кассету" мотивов функциональных сайтов, нас интересовала возможная корреляции между наличием АТ-нуклеотидов и регуляторными сайтами. Мы выявили достоверную положительную корреляцию распределения мотивов функциональных сайтов с распределениями состава нуклеотидов (%A-fT) у 13-ти из 19-ти мобильных элементов. У пяти МГЭ коррелятивные связи оказались не достоверны: у Surl, Ted и gypsy Dr.meianogaster из LTR-содержаших ретротранспозонов, и у обоих Line-элементов мыши и человека. Последние, по-видимому, существенно отличаклея от LTR-содержаших ретротранспозонов: у двух представителей распределение состав нуклеотидов не коррелирует с распределением мотивов регуляторных сайтов, в то время как у третьего представителя - релротранспозона Jockey - имеется постоверная, но отрицательная корреляция. На примере Jockey было доказано, что яействительно в его геноме сайтов с высоким содержанием ОС-нуклеотидов намного больше, чем в МГЭ других типов.

Таким образом, и информационно-кибернетической точки зрения (Ratner, 1996, 1998) МГЭ представляют собой автономные генетические системы гранешьиции в геноме, которые содержат также наборы функциональных сайтов, влияющих на функции соседних генов и чувствительных к привходящим

сигналам. Иначе говоря, это как бы "подвижные кассеты элементов управления".

Перемещаясь в геноме, а также захватывая другие элементы управления, они

способны изменять подчиненность и экспрессию генов.

ВЫВОДЫ

1. Создан комплекс компьютерных программ, позволяющих статистически обосновать и визуализировать результат поиска мотивов регуляторных сайтов из имеющейся базы данных (277 единиц) по любой последовательности ДНК.

2. Создан первичный интернетный вариант базы данных транспозирующихся генетических элементов эукариот. Информация по каждому элементу включает: нуклеотидную последовательность, блок-структуру генома мобильного элемента, наличие и позиции мотивов регуляторных сайтов из имеющейся базы данных.

3. Прс .еден компьютерный анализ последовательностей ДНК 19-ти мобильных элементов, который выявил в их геномах "сгущения" функциональных сайтов, достоверно отличающиеся от случайных.

4. Контекстный анализ "сгущений", расположеных в предполагаемых регуляторных зонах (LTRs, промоторные районы, промежутки между ORF, между доменами ORF2, и пр) выявил подходящие мотивы функциональных сайтов, необходимые для осуществления основных молекулярных функций МГЭ.

5. Проведен сравнительный анализ распределения в МГЭ разных классов и подклассов мотивов ряда основных регуляторных сайтов, в том числе инициации и терминации прямой и обратной транскрипции. Проверена теоретическая возможность независимого считывания отдельных ORFs и доменов ферментов репликативного комплекса внутри ORFs у ретротранспозонов. Для большинства из них указана возможность незазисимой транскрипции и трансляции всех ORFs и доменов ORF.

6. Обнаружено плотное расположение сайтов рецепции внешних сигналов (в том числе, теплового шока) перед и в начале доменов обратной транскриптазы и интегразы у многих ретротранспозонов. У транспозона Р подобная локализация сайтов рецепции внешних сигналов выявлена перед ехоп 3. Предложен новый механизм индукции транспозиций МГЭ внешними сигналами.

7. В последовательностях МГЭ выявлено значительное количество энхансерных мотивов, что создает большое потенциальное разнообразие вариантов управления транскрипцией как внутри МГЭ, так и по отношению к окружающим генам и полигенам. Мобильные элементы, таким образом, можно рассматривать как "подвижные кассеты регуляторных сайтов" в геномах эукариот.

8. У большинства МГЭ найдена положительная корреляция между числом регуляторных сайтов в различных районах МГЭ и процентным соотношением ' АТ-нуклеотидов в этих районах; содержание последних, в свою очередь, у всех исследованных мобильных элементов выше, чем СС-нуклеотидов и составляет в среднем 61%.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

I Knpitonnv V.V.. Amikishiev V G. The influence of the "molecular memory" on the inlnieenome evolution of the mobile genetic elements. / International Conference "Modelling and computer methods in molecular bioiogy and genetics". Novosibirsk. 1990. P. 160.

2. Kapitonov V.V., Amikishiev V.G. Gene conversion as factor of preventing regulatory sites from losing validity for MGE. / International Conference "Modelling and computer methods in molecular biology and genetics". Novosibirsk. 1990. P. 161.

3 Amikishiev V.G., Ratner V.A. Distribution of functional site motifs along the DNA sequence of retrotrnnsposon MDG-2. / French-Russian Symposium on Regulation of Gene Expression. Novosibirsk. 1995. P. I.

4. Ачикишиев В.Г. Мотивы функциональных сайтов в последовательности ДНК МДГ-2. / Млериалы XXXIII Международной научной студенческой конференции "Студент и нахчно-технический прогресс". Новосибирск. 1995. С. 28.

5. Ратнер В.А., Амикишиев В.Г. Распределение мотивов функциональных сайтов в последовательности ДНК МДГ2. / Генетика. 1996. Т.32. N 7. С. S96-901.

(). Р.пнер 13 А., Ачикишиев В.Г. Анализ мотивов функциональных сайтов МДГ2 в обеспечении его возможных молекулярных функций. / Генетика. 1996. Т.32. N 1. С. 901913.

7. Амикишиев В.Г., Ратнер В.А. Компьютерный ашпиз распределения мотивов функциональных сайтов в последовательностях ДНК МГЭ / Второй Сибирский Конгресс по прикладной н индустриальной математике (ИНПРИМ-96). Новосибирск. 1996. С. 18,

8 Амикишиев В.Г., Ратнер В.А. Деревья функционального сходства мобильны) к'пстче'ских элементов (МГЭ). / Материалы международной конференции, посвяшенно! SO-летию со дня рождения академика Д.К.Беляева "Современные кониепши эволюционной генетики". Новосибирск. 9-12 сентября 1997. С. 16-17.

9. Amikishiev V.G., Ratner VA. Analysis of functional site motifs of тоЫе genetic element relative .o their possible molecular functions. / Proceedings of the first Internation; Conference of bioinformaiics of genome regulation and structure (BGRS'98). Novosihirst Altai .Mountains. August 24-31, 1998. P. 177-180.

К). Амикишиев В Г, Ратнер В А. Характер распределения мотивов функционатьнь .-айтов в последовательностях ДНК МГЭ. / Третий Сибирский Конгресс по прикладной ждустркалькой математике (ИНПРИМ-98). Новосибирск. 1998. С. 111.

II. Amikishiev V., Frolov A., Ratner V. System of mobile genetics elemer hiip://www. nigs, bionet.nsc.ru/systems/mge/.