Бесплатный автореферат и диссертация по биологии на тему
Трансляционно-значимые характеристики 5`-нетранслируемых районов мРНК эукариотических генов
ВАК РФ 03.02.07, Генетика

Автореферат диссертации по теме "Трансляционно-значимые характеристики 5`-нетранслируемых районов мРНК эукариотических генов"

На правах рукописи

Волкова Оксана Анатольевна

ТРАНСЛЯЦИОННО-ЗНАЧИМЫЕ ХАРАКТЕРИСТИКИ 5'-НЕТРАНОДИРУЕМЫХ РАЙОНОВ мРНК ЭУКАРИОТИЧЕСКИХ ГЕНОВ

03.02.07 - Генетика

2 2 удр Ж1

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Новосибирск 2012

005013157

Работа выполнена в лаборатории генной инженерии Федерального государственного бюджетного учреждения науки Институте цитологии и генетики Сибирского отделения Российской академии наук г. Новосибирска

НАУЧНЫЙ РУКОВОДИТЕЛЬ: кандидат биологических наук, доцент

Кочетов Алексей Владимирович

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ: Меркулова Татьяна Ивановна

доктор биологических наук, профессор, зав. лабораторией регуляции экспрессии генов Федерального государственного бюджетного учреждения науки Института цитологии и генетики СО РАН, г. Новосибирск

Колесников Николай Николаевич

доктор биологических наук, ведущий научный сотрудник Федерального государственного бюджетного учреждения науки Института молекулярной и клеточной биологии СО РАН, Новосибирск

ВЕДУЩЕЕ УЧРЕЖДЕНИЕ: Федеральное государственное бюджетное

учреждение науки Институт общей генетики им. Н.И.Вавилова РАН, Москва

Защита диссертации состоится ¿^nfUU^UO 12 г. на утреннем

заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук Д 003.011.01 в Федеральном государственном бюджетном учреждении науки Институте цитологии и генетики СО РАН, в конференц-зале Института по адресу: 630090, г. Новосибирск, проспект академика Лаврентьева, 10. Тел. (383)-363-49-06, e-mail: dissov@bionet.nsc.ru.

С диссертацией можно ознакомиться в библиотеке ИЦиГ СО РАН Автореферат разослан " б

Ученый секретарь диссертационного совета, доктор биологических наук \) ' Т.М. Хлебодарова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность проблемы.

Известно, что мРНК эукариотических генов различаются по трансляционной активности, то есть по интенсивности синтеза белка в процессе трансляции. Считается, что инициация является лимитирующей стадией процесса трансляции в клетках эукариот. 5'-нетранслируемая последовательность мРНК (участок между 5'-концом и началом белок-кодирующей последовательности (БКП)) участвует во взаимодействии с факторами аппарата трансляции и 40S субъединицами рибосом. Известно, что характеристики нуклеотидной последовательности 5'-НТП оказывают существенное влияние на эффективность инициации трансляции (Kozak, 2005; Kochetov, 2008). Некоторые из таких функционально-значимых характеристик были выявлены: в частности, стабильная вторичная структура и потенциальные стартовые кодоны в районе 5'-НТП могут ингибировать трансляцию. Показано, что небольшие открытые рамки считывания (upstream ORF, uORF), содержащиеся в составе 5'-НТП многих эукариотических мРНК, в некоторых случаях играют важную роль в пост-транскрипционном контроле экспрессии соответствующих генов. Однако, в подавляющем большинстве случаев их роль остается не изученной. В целом, имеющаяся информация о структурно-функциональной организации 5'-НТП, недостаточна. Знание трансляционно-значимых характеристик 5'-НТП важно для предсказания трансляционной активности мРНК, особенностей контроля экспрессии генов на пост-транскрипционном уровне, а также для предсказания связи между мутациями в этом районе гена и патологическими состояниями.

На момент начала работы имеющиеся в литературе данные о характеристиках 5'-НТП в основном были получены в экспериментах in vitro, не было известно, существуют ли у 5'-НТП как у функционального района гена какие-либо общие или таксон-специфические особенности. Кроме этого, не было достаточной информации о структуре сигнала инициации трансляции. Известно, что распознавание триплета AUG в качестве стартового кодона зависит от нуклеотидного окружения (контекста). Считалось, что основную роль выполняют нуклеотиды, расположенные непосредственно перед AUG в 5'-НТП (5'-часть контекста). Согласно некоторым экспериментальным данным, эффективность распознавания инициаторного кодона также зависела от нуклеотидов, расположенных непосредственно после AUG (3'-части контекста, совпадающей с началом БКП). Однако, имеющиеся экспериментальные данные были противоречивы, что не позволяло точно определить полную структуру сигнала инициации трансляции, затрудняло предсказание локализации и эффективности этих сигналов.

Цели и задачи исследования.

Целью работы являлось изучение трансляционно-значимых характеристик нуклеотидных последовательностей 5'-нетранслируемых районов мРНК генов эукариотических организмов. В рамках работы были поставлены следующие задачи.

1. С помощью компьютерного анализа исследовать контекстные характеристики нуклеотидных последовательностей 5'-НТП мРНК генов дрожжей, высших растений, насекомых, амфибий, птиц и млекопитающих и определить параметры, связанные с эффективностью инициации трансляции.

2. Исследовать роль нуклеотидов, расположенных непосредственно после кодона AUG (3'-концевого участка контекста), в функционировании сигнала инициации трансляции в мРНК млекопитающих.

Научная новизна.

Впервые проведен систематический анализ контекстных характеристик, специфических для 5'-НТП мРНК генов Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens и Saccharomyces cerevisiae. Обнаружено, что для 5'-HTTI высших растений, насекомых, птиц и животных характерен выраженный дисбаланс в содержании комплементарных нуклеотидов. По-видимому, эта особенность лидерных районов мРНК сформировалась в ходе эволюции и является следствием естественного отбора, направленного на элиминацию стабильных вторичных структур, снижающих эффективность трансляции. Показано, что 5'НТП эффективно транслируемых мРНК эукариотических организмов характеризуются меньшим размером, отсутствием (или меньшим числом) триплетов AUG, более выраженным дисбалансом в содержании комплементарных нуклеотидов. Обнаружено, что трансляционно-значимые характеристики uORF (размер, контекст стартового кодона), расположенных в 5'НТП мРНК генов млекопитающих, птиц, высших растений и насекомых, существенно различаются в зависимости от их расположения в пределах 5'НТП (локализованные в 5'-НТП, перекрывающиеся с БКП и сливающиеся с БКП). uORF, локализованные в пределах 5'НТП, характеризуются небольшими размерами, что позволяет осуществлять трансляцию основной рамки считывания с помощью механизмов «сканирования с подтеканием» (leaky scanning) и/или реинициации и говорит о регуляторных функциях этого типа лидерных рамок считывания. uORF, перекрывающиеся с БКП, характеризуются значительно большими размерами, что свидетельствует об их неучтенном кодирующем потенциале и более выраженном негативном эффекте на трансляцию основной рамки считывания. Впервые показано, что существует взаимосвязь между нуклеотидами в -3 и +4 позициях контекста стартового кодона в мРНК млекопитающих: выявлено два устойчивых варианта оптимального контекста: AnnAUGn и GnnAUGG. Обнаружено существование функциональной взаимосвязи между аминокислотами в N-концевом участке белка и эффективностью инициации трансляции: выявлены устойчивые комбинации нуклеотидов в позиции -3 перед AUG и аминокислотных остатков во второй позиции белков млекопитающих: AnnAUG коррелирует с более частым присутствием во второй позиции белка остатка серина, GnnAUG - аланина и глицина. По-видимому, комбинации определенного нуклеотида в -3 позиции контекста и аминокислотного остатка во второй позиции белка увеличивают эффективность определённых стадий процесса инициации трансляции (предположительно, формирования первой пептидной связи).

Практическая значимость

Выявленные трансляционно-значимые характеристики эукариотических мРНК (дисбаланс в содержании комплементарных нуклеотидов в 5'-НТП, оптимальные варианты нуклеотидного контекста стартового кодона трансляции (GnnAUGG, AnnAUG), а также потенциальное участие аминокислотных остатков во второй позиции белка в инициации трансляции) могут быть использованы для улучшения существующих методов предсказания трансляционной активности эукариотических мРНК и позиций сайтов инициации трансляции. Полученные данные были использованы для оптимизации сайтов инициации трансляции при планировании генетических конструкций для получения трансгенных растений в лаборатории генной инженерии ИЦиГ GO РАН.

Положения, выносимые на защиту:

1. 5'НТП эффективно транслируемых мРНК генов Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens и Saccharomyces cerevisiae характеризуются выраженным дисбалансом комплементарных нуклеотидов, небольшими размерами, отсутствием (или небольшим числом) uAUG.

2. Характеристики лидерных рамок считывания (uORF) Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens, расположенных либо в пределах 5'НТП, либо перекрывающихся с БКП, статистически достоверно различаются, что может свидетельствовать об отличиях в их функциях.

3. Оптимальный контекст стартового кодона трансляции в мРНК млекопитающих включает две устойчивые комбинации нуклеотидов в позициях -3 и +4: AnnAUGN, GnnAUGG.

4. Эффективность инициации трансляции может зависеть от определенных комбинаций нуклеотида в позиции -3 перед кодоном AUG и аминокислотного остатка, расположенного во второй позиции белка: в частности, AnnAUG коррелирует с более частым присутствием серина, GnnAUG - аланина и глицина.

Апробация работы

Материалы диссертации были представлены на: Международной конференции «Генетика в России и мире», Москва, 2006; Translational Control and Non-Coding RNA Meeting, Czech Republic, 2006; Международной молодежной научно-методической конференции «Проблемы молекулярной и клеточной биологии» Томск, 2007; Moscow Conference on Computational Molecular Biology,Moscow, 2007, 2009, 2011; Conference on Bioinformatics of Genome Regulation and Structure. Novosibirsk, 2000, 2006, 2008,2010.

Публикации

По теме диссертации опубликовано 16 работ, из них: 6 в рецензируемых журналах (из перечня ВАК), 10 тезисов.

Структура и объем работы

Диссертация включает введение, обзор литературы, материалы и методы, результаты и обсуждение, выводы, список литературы (159 ссылок) и приложение. Работа изложена на 127, включая 9 рисунков и 18 таблиц.

СОДЕРЖАНИЕ РАБОТЫ Глава 1. Обзор литературы

В обзоре литературы приведены современные данные, описывающие процесс инициации трансляции, способы его регуляции и известные характеристики 5'НТП, способные влиять на эффективность инициации трансляции.

Глава 2. Материалы и методы

Формирование выборок нуклеотидных последовательностей

В ходе работы были использованы несколько вариантов выборок нуклеотидных последовательностей различных функциональных районов генов эукариот, выделенных из банков данных в разное время. Выборки 5'НТП, БКП и З'НТП были выделены из карточек БД EMBL, содержащих информацию о кДНК (соответствующих зрелым мРНК, в скобках приведено число нуклеотидных последовательностей в выборке):

Arabidopsis thaliana (13768), Liliopsida (3307), Drosophila melanogaster (2005), Xenopus laevis (8304), Gallus gallus (1212), Mus musculus (16944), Homo sapiens (24144), Saccharomyces cerevisiae (3973). Для выделения нуклеотидных последовательностей 5'НТП, БКП и З'НТП была использована программа ReadSeq (http://iubio.bio.mdiana.edu/soft/molbio/readseq/iava/). Дополнительно из базы данных Exon-Intxon (http://www.meo.edu/bioinfo/eid/index.html) (GenBank, 2005) были выделены выборки 5'-концевых нитронов, а из БД EPD (http://www.epd.isb-sib.ch1 - базальных промоторов. Выборки промоторов были дополнены с помощью аннотации статей, доступных на момент проведения работы и содержащих информацию о картировании сайтов инициации транскрипции.

Полученные выборки мРНК были проанализированы на целостность кодирующей части, наличие 5'НТП и З'НТП, очищены от мРНК генов пластид, митохондрий и нуклеотидных последовательностей, содержащих символы, отличные от a, g, t, с. Высокогомологичные (>95%) нуклеотидные последовательности были исключены с помощью программы CleanUp (Grillo et al., 1996).

Методы компьютерного анализа

Компьютерный анализ выборок нуклеотидных последовательностей был проведен с помощью пакета программ MGL (Колпаков и Бабенко, 1997). Дополнительно был разработан набор специальных программ, предназначенных для работы с выборками нуклеотидных последовательностей (картирование uORF, выделение uORF и анализ их контекстных параметров).

Средние частоты встречаемости кодонов в белок-кодирующих последовательностях мРНК эука|>иот взяты из БД CUTG (http://www.kazusa.or.ip/codon/) (Nakamura et al., 2000; Exp ). Для оценки способности нуклеотидной последовательности мРНК формировать стабильную вторичную структуру использовали индексы Io/C=|G-C|/(G+C) и Iaaj=]A-U|/(A+U). Сходство контекста с консенсусной последовательностью S(b-3,...,b+6) (matching score, далее - вес контекста стартового кодона) рассчитывали как: +6

S(b.3,...,b6) = 2lnw(bjj) j=-3

где w-частота встречаемости нуклеотида b=A, G, С или U, в j-ой позиции контекста стартового кодона в выборке мРНК соответствующего организма. Связь между переменными оценивали на основании значений коэффициентов линейной и ранговой корреляции по Пирсону (linear correlation coefficient, гр) и Кендаллу (rank tau coefficient, rk). Достоверность различий между наблюдаемыми (Obs) и ожидаемыми (Ехр) значениями встречаемости кодонов и аминокислот в позициях белок-кодирующих и аминокислотных последовательностей оценивали с помощью критерия jf. Достоверность различий между средними позиционными значениями частот нуклеотидов и аминокислотных остатков в выборках мРНК с различньми нуклеотидами в позиции -3 перед стартовым кодоном трансляции оценивали с помощью г-теста Стьюдента и ¡У-теста Манна-Уитни.

Глава 3. Результаты и Обсуждение

В рамках диссертационной работы были решены две основные задачи: (1) проведен компьютерный анализ 5'-НТП мРНК эукариот, направленный на выявление специфических контекстных особенностей, связанных с их функцией в процессе инициации трансляции; (2) исследована структура сигнала инициации трансляции:

проведен анализ функциональной роли 3'-части контекста стартового кодона, расположенной в начале белок-кодирующей последовательности мРНК.

3.1. Трансляцнонно-значимые характеристики 5'НТП

Был проведен систематический анализ контекстных характеристик 5'-НТП (размер, моно- и динуклеотидный состав, потенциал формирования стабильной вторичной структуры, число uAUG и соответствующих им открытых рамок считывания (uORF), а также их характеристик). Для выявления параметров, специфичных для 5'-НТП (то есть, потенциально важных для инициации трансляции), в анализе также были использованы выборки районов генов эукариот, выполняющих другие функции: З'НТП, 5'-концевых интронов и промоторов. Ниже приведены данные о характеристиках 5'-НТП, которые могут быть связаны с их трансляционной активностью.

3.1.1 Контекстные особенности эукариотических S'-НТП способствуют формированию менее стабильной вторичной структуры

Наличие стабильной вторичной структуры в 5'НТП может затруднять ее сканирование 40S субъедипицами рибосом и соответственно снижать эффективность инициации трансляции (Kozak, 2005). В настоящее время считается, что повышенное содержание G и С коррелирует со способностью нуклеотидной последовательности РНК формировать стабильную вторичную структуру, поскольку комплементарное взаимодействие G-C пар более энергетически выгодно. Однако, ранее на примере мРНК высокоэкспрессирующихся генов млекопитающих было показано, что содержание G+C не полностью отражает потенциал формирования вторичной структуры, поскольку не учитывает возможный дисбаланс в содержании комплементарных нуклеотидов (Kochetov et al„ 1998). В ходе исследования нами был проведен сравнительный анализ контекстных характеристик различных функциональных районов мРНК эукариотических генов Liliopsida, A. lhaliana, X laevis, G. gallus, M. musculus, H. sapiens, и S. cerevisiae: промоторов, 5'НТП, З'НТП и интронов. Известно, что эти организмы характеризуются различным содержанием нуклеотидов G+C в геномной ДНК (высокое у животных и птиц, низкое у растений и дрожжей). Неожиданно оказалось, что 5'-НТП характеризуются даже более высоким содержанием G + С в сравнении с другими функциональными районами мРНК генов (рис. 1 - на примере X. laevis).

Считается, что высокая частота нуклеотидов G+C может приводить к формированию более стабильной вторичной структуры, плохо совместимой с эффективной инициацией трансляцией в клетках эукариот (Kozak, 2005). Однако, нами было обнаружено, что у всех проанализированных организмов 5'НТП характеризовались большим дисбалансом в содержании комплементарных нуклеотидов по сравнению с другими функциональными районами генов.

В частности, доля нуклеотидных последовательностей, у которых содержание комплементарных нуклеотидов было близким (G/C и A/U варьировали от 0.75 до 1.25) в выборке 5'-НТП была наименьшей (рис. 1) на примере X. laevis). 5'-НТП также характеризовались более высокими средними значениями индексов 1о,с и Ia/u (0.2-0.3 против 0.1 у других некодирующих районов генов - чем ближе значение этих индексов к нулю, тем меньше дисбаланс в содержании комплементарных нуклеотидов) (рис. 1). Близкие данные были получены для функциональных районов мРНК генов других эукариот.

■ G+C

□ G/C(0.75-1.25)

□ A/T(0.75-1.25) aiGC

пром

5'-иит 5'НТП

З'НТП

Рис. 1. Контекстные характеристики некодирующих районов генов X. laevis: среднее содержание G+C; доля нуклеотидных последовательностей, характеризующихся близким содержанием комплементарных нуклеотидов (G/C, AAJ варьируют от 0.75 до 1.25), средние значения индексов Iq/c и 1д/и (Io/c = |G-C|/(G+C); IA/u = |A-U|/(A+U)); пром - промотор, 5'-инт - 5'-концевой интрон.

Можно предположить, что средняя частота нуклеотидов G и С в геномной ДНК зависит от ряда факторов (например, принадлежности к определенной изохоре) и оптимизация эффективности инициации трансляции не может происходить за счет снижения их содержания в 5'-НТП. Однако, потенциальный негативный эффект высокого содержания G+C в 5'НТП может компенсироваться за счет дисбаланса в их частотах в индивидуальных последовательностях (G может встречаться значительно реже, чем С, или наоборот). Такой дисбаланс может быть связан с отбором, направленным против формирования стабильных вторичных структур в 5'НТП. Дисбаланс комплементарных нуклеотидов был ранее показан для 5'-НТП мРНК высокоэкспрессирующихся генов млекопитающих (Kochetov et al., 1998), однако в рамках данной работы было впервые показано, что этот критерий является район-специфической характеристикой лидерных районов мРНК генов животных, растений и дрожжей (на примере G. gallns, М. musculus, X. laevis, Н. sapiens, A. thaliana, Liliopsida и S. cerevisiae).

3.1.2. Встречаемость триплетов AUG в составе различных функциональных районов эукариотических генов.

В рамках модели линейного сканирования считается, что в составе 5'-НТП эукариотических мРНК не должны содержатся триплеты AUG (upstream AUG, uAUG), поскольку часть рибосом может распознавать их как стартовые кодоны, и это будет снижать эффективность трансляции основной рамки считывания (Kozak, 2005). Нами был проведен сравнительный анализ встречаемости триплетов AUG в разных некодирующих районах генов: мРНК (5'НТП, З'НТП), 5'-проксимальном интроне, а также в промоторном районе (нетранскрибируемом). Обнаружено, что подавляющее большинство (80-100%) нуклеотидных последовательностей промоторов, З'НТП и интронов содержат триплеты AUG (рис. 2), тогда как в 5'НТП они содержатся значительно реже: от 19% до 48% у разных видов. Эти результаты дополняют и расширяют данные, полученные ранее (Rogozin et al., 2001).

%

100 80 60 40 20 0

A. thaliana S. cerevisiae M. musculus H. sapiens

пром

5'НТП

З'НТП инт

Рис. 2. Доля нуклеотидных последовательностей различных функциональных районов мРНК генов эукариот, содержащих триплеты AUG (5'-НТП, З'-НТП, промоторный район (пром), 5'-проксимальный интрон (инт))

Частота триплета в нуклеотидной последовательности может зависеть от особенностей нуклеотвдного состава. Ожидаемая частота AUG была вычислена по формуле: Exp=A*U*G(L-2), где A, U, G - средние частоты нуклеотидов, L - размер нуклеотидной последовательности. Отношение наблюдаемой частоты AUG к ожидаемой величине (Obs/Exp) варьировало для 5'-НТП Liliopsida, A. thaliana, X. laevis, S. cerevisiae в пределах 0.4 - 0.6, для 5'-НТП D. melanogaster, G. gallus, М. musculus, Н. sapiens - 0.7 -0.8 (различия между Obs и Ехр статистически достоверны, р<0.05). Величина Obs/Exp для выборок нуклеотидных последовательностей промоторов, 5'-концевых интронов и З'НТП оказалась близкой к единице, что говорит об отсутствии функциональной значимости триплетов AUG в этих районах. По-видимому, сниженное число oAUG по сравнению с ожидаемыми величинами отражает отбор против этих триплетов в ходе эволюции. Однако, лидерные районы значительной части мРНК в выборках содержат uAUG и соответствующие им рамки считывания (uORF). По-видимому, трансляционная структура 5'-НТП во многих случаях достаточно сложна, и для трансляции таких матриц используются различные механизмы (сканирование с подтеканием, реинициация, IRES) и/или их комбинации.

3.1.3. Взаимосвязь контекстных характеристик 5'-НТП и эффективности трансляции мРНК

Принятым подходом для выявления функционально - значимых характеристик участков ДНК, РНК или белка является анализ их корреляций с функциональной активностью. Для того, что выявить такие характеристики у 5'-НТП было необходимо проанализировать их связь с трансляционной активностью соответствующих мРНК. Один из возможных способов получения таких данных - оценка принадлежности клеточных мРНК к различным фракциям полисом с помощью микрочипов или анализ защищенных рибосомами участков мРНК с помощью RNAseq. Однако на момент начала работы такие данные были недоступны (как они недоступны для подавляющего большинства эукариотических организмов в настоящее время). Поэтому, нами были использованы критерии, для которых известно, что они коррелируют с эффективностью трансляции мРНК. Ранее было показано (Kochetov et al., 1998), что трансляционно-значимые характеристики мРНК (контекст старт- и стоп-кодона, размер 5'-НТП, потенциал формирования вторичной структуры) у выборки высокоэкспрессирующихся генов млекопитающих оптимизированы. Поэтому, вес контекста стартового кодона (отражающий эффективность его распознавания рибосомами) был использован в качестве характеристики, отражающей общую трансляционную активность мРНК. В этом случае в компьютерном анализе должны

выявляться статистически достоверные взаимосвязи, являющиеся индикаторами функциональной значимости тех или иных характеристик мРНК, но абсолютная величина коэффициента корреляции может быть невысокой.

Нами был проведен систематический анализ корреляций между весом контекста стартового кодона трансляции и параметрами 5'НТП мРНК генов эукариотических организмов (моно- и динуклеотидный состав, наличие иАив и характеристики иОЯБ). Обнаружено, что для всех организмов наблюдается достоверная негативная корреляция между весом контекста стартового кодона и размером 5'НТП, а также числом иА1ГО. Кроме этого, обнаружена достоверная позитивная корреляция между весом контекста стартового кодона и индексами, отражающими потенциал формирования вторичной структуры (1д/т, Ь/с) (таблице 1). Также были найдены корреляции между весом контекста стартового кодона и частотами некоторых нуклеотидов и динуклеотидов в 5'НТП, однако они были видоепецифичными и в качестве район-специфических характеристик 5'-НТП мы их не рассматриваем.

Таблица 1. Коэффициенты корреляций по Пирсону (гр) и Кендаллу (ri<) между весом контекста стартового кодона БКП (участок -3...+6) и параметрами 5'НТП мРНК (на

A. thaliana M. musculus H. sapiens

Гр Гк Гр Гк Гр Гк

Длина 5'НТП -0.19 -0.12 -0.14 -0.10 -0.18 -0.13

Iau 0.12 0.07 0.10 0.06 0.15 0.08

Igc 0.09 0.06 0.05 0.03 0.07 0.04

uAUG -0.20 -0.17 -0.19 -0.16 -0.23 -0.19

* уровень значимости р<0.05, достоверные значения выделены полужирным шрифтом

В целом, мРНК с оптимальным контекстом стартового кодона характеризуются более короткими 5'НТП, отсутствием (или меньшим числом) uAUG, и они менее склонны к формированию стабильной вторичной структуры в лидерном районе. Обнаруженные закономерности хорошо укладываются в общую схему инициации трансляции в рамках модели «линейного сканирования» (Kozak, 2005). Сходные закономерности наблюдались для выборок всех исследованных в данной работе организмов.

3.2. Анализ трансляционно-значимых характеристик uORF в зависимости от их локализации

Известно, что присутствие uAUG (и соответствующих uORF) снижает трансляционную активность эукариотических мРНК, однако для предсказания выраженности их негативного эффекта информации было недостаточно. Нами было выдвинуто предположение о том, что влияние uORF на эффективность трансляции может зависеть от их локализации в пределах мРНК. uORF могут быть классифицированы на три группы в зависимости от их расположения по отношению к аннотированному стартовому кодону (были выбраны 5'-НТП, содержащие один uAUG; эта упрощенная ситуация достаточно репрезентативна для выявления общих закономерностей) (рис.3). Согласно модели «линейного сканирования», трансляция основной рамки считывания (БКП) в присутствии uORF может осуществляться с помощью механизмов «сканирования с подтеканием» (leaky scanning) или реинициации трансляции, однако эффективность этих механизмов ограничена. В частности, «сканирование с подтеканием» возможно, если контекст uAUG субоптимален и часть 40S субъединиц рибосом не распознает его как старт трансляции. Реинициация трансляции заметна в

том случае, если размер иОМ7 мал (менее 15-20 кодонов) и расстояние между иОЯИ и БКП достаточно велико (более 50 нуклеотидов) (Когак, 2005; КосЬеЮу, 2008).

uORF3

БКП

Рис. 3. Расположение иОИ7 относительно аннотированной БКП: иСЖН расположена в пределах 5'НТП и не перекрывается с аннотированным стартовым кодоном; и(ЖР2 расположена не в рамке БКП и перекрывается с ней; иОШ^ расположена в той же рамке считывания, что и БКП и сливается с ней (то есть между иАШ и началом БКП нет стоп-кодонов и \iORF3 аналогична удлиненной с 5'-конца БКП).

Нами был проведен анализ взаимосвязи между локализацией иСЖР и их трансляционно-значимыми свойствами (длина, контекст стартового кодона). Частоты встречаемости каждого типа иОКР в мРНК млекопитающих и растений и их параметры представлены в таблице 2, результаты для остальных проанализированных организмов сходны.

Таблица 2. Встречаемость (%) различных типов uORF и их средний размер

Таксон Объем uORF в пределах 5'НТП uORF uORF

выборк (uORFl) перекрываете сливается с

и я с БКП БКП

(uORF2) (uORF3)

% Длина Спейсер* % Длина % Длина

A. thaliana 1813 83 33 65 16 109 1 178

М. musculus 3127 65 38 77 23 134 11 54

Н. sapiens 4029 69 42 74 21 192 10 60

♦Спейсер - расстояние между стоп кодоном иОЮ7 и стартовым кодоном БКП; иОИ?1, иОШ^, иСЖРЗ соответствуют типам иОЫК, приведенным на рис. 3.

uORF,расположенные в границах 5'НТП

Можно видеть, что uORF этого типа в среднем наиболее малы по размеру и наиболее часто встречаются (табл. 2). uAUG часто расположены в неоптимальном контексте (31%-53%) и редко - в оптимальном (4%-21%). Считается, что если контекст uAUG не оптимален, то трансляция нижележащей БКП может осуществляться за счет «сканирования с подтеканием», либо комбинации «сканирования с подтеканием» и реинициации трансляции (вероятно, в некоторых случаях могут использоваться альтернативные механизмы инициации: внутренней инициации трансляции (IRES) или шунтирование потока рибосом, однако в настоящее время нет методов, позволяющих их распознать). Если контекст uAUG оптимален, то трансляция нижележащей БКП может происходить только за счет реиницации трансляции. Известно, что эффективность механизма реинициации существенно увеличивается при уменьшении размера uORF и увеличении расстояния между стоп-кодоном uORF и стартовым кодоном нижележащей БКП (спейсера). Средний размер спейсера составляет 65 - 104

н. у различных видов эукариот (табл. 2), что вполне достаточно для эффективн реинициации (Kozak, 2005). Для проверки возможности использования реинициац трансляции нами был проведен анализ взаимосвязей между размером спейсера различными параметрами uORF. Впервые было найдено, что существует статистичес достоверная негативная корреляция между размером спейсера и весом контекста сто кодона uORF для выборок мРНК всех анализируемых организмов (табл. 3, на приме A. thaliana и Я sapiens). Можно допустить, что неоптимальный стоп-кодон увеличива время, затрачиваемое на терминацию трансляции uORF, что приводит к потере час связанных с рибосомой факторов и требует спейсера большего размера д восстановления трансляционной компетентности.

Таблица 3. Взаимосвязь длины спейсера и веса контекста стоп-кодона uORF

Организм Гр Гк

A. thaliana -0.086 (р=0.001) -0.12 (р<10"ш)

Н. sapiens -0.117 (р<10'8) -0.09 (p<10"IJ)

и(Ж1~, перекрывающиеся с нижележащей БКП

Оказалось, что иОИ7 этого типа встречаются значительно реже, чем uOR.Fl характеризуются значительно большими средними размерами (табл. 2), а таю значительно чаще характеризуются субоптимальным контекстом стартового кодо трансляции (табл. 4). По-видимому, иОКР2 оказывают значительно более выраженн негативное влияние на трансляцию основной рамки считывания. Это может бы связано с тем, что в данном случае трансляция БКП возможна только с помощь механизма «сканирования с подтеканием». С нашей точки зрения, полученные данн говорят о сложной структурно-функциональной организации этого типа мРНК: и01 могут обладать собственным кодирующим потенциалом (поскольку их средний разм варьирует от 100 до 200 нуклеотидов, и с них могут транслироваться небольшие белк при этом контекст стартового кодона в большинстве случаев субоптимален, позволяет части рибосом транслировать основную рамку считывания. То есть, высокой степенью вероятности некоторые из таких мРНК кодируют д функционально-значимых белка.

Таблица 4. Частота иОНИ (%), у которых стартовый кодон трансляции расположен

Организм uORFl uORF2 uORF3

Opt* Sub** Opt Sub Opt^ Sub

М. musculus, uAUG 20 32 15 42 22 31

М. musculus, CDS 41 8 44 9 41 9

Н. sapiens, uAUG 21 31 14 37 25 27

H. sapiens, CDS 35 10 45 10 43 10

* Opt - оптимальный контекст: A, G в позиции -3 и G в позиции +4 ** Sub - субоптимальный контекст: С, U в поз. -3 и А, С, U в позиции +4

uORF, сливающиеся с БКП

В небольшом числе случаев (табл. 2) uAUG расположен в той же рамке считывали что и нижележащая аннотированная БКП и между ними нет стоп-кодонов (uORF3 н рис. 3). Согласно модели сканирования, если uAUG расположен в оптимально контексте, то трансляция аннотированной нижележащей БКП невозможна, так как вс рибосомы будут инициировать трансляцию на таком uAUG (Kozak, 2005). Если uAU расположен в субоптимальном контексте, то трансляция будет также инициироватьс

на нижележащем AUG за счет сканирования с подтеканием. По-видимому, выявленные случаи uORF3 относятся либо к мРНК с неправильно предсказанньм стартовым кодоном трансляции, либо к бифункциональным матрицам, с которых считываются две изоформы белка, различающиеся по N-концу (Kochetov, 2008)

3.3. Контекст стартового кодона трансляции в эукариотических мРНК

Несмотря на то, что функциональная значимость контекста стартового кодона AUG хорошо известна, организация этого участка нуклеотидной последовательности ! исследована недостаточно. Считается, что нуклеотиды в позициях -3 и (в меньшей степени) +4 вокруг AUG являются наиболее важными (оптимальный контекст: RNNAUGG, R = А или G). В то же время, частоты нуклеотидов в других позициях контекста также значительно отличаются от средних (консенсус: GCCGCCRCCAUGGC). Практически не исследована возможность функциональной значимости комбинаций нуклеотидов в различных позициях. К числу малоизученных вопросов также относится функциональная роль нуклеотидов в позициях +4 и +5. Оценки влияния нуклеотидов в этих позициях на распознавание стартового кодона

варьируют от существенного (Grunert & Jackson, 1994; Niimura et al., 2003; Nakagawa et | al., 2008) и ограниченно значимого (только G в позиции +4; Kozak, 1997) до незначительного (Harkins et al., 2005; Xia et al., 2007). Необходимо отметить, что 3'-концевой участок контекста стартового кодона расположен в начале БКП и является полифункционаяьным: на уровне нуклеотидной последовательности он может участвовать в инициации трансляции (контекст кодона AUG), в элонгации трансляции (синонимические кодоны различаются по скорости декодирования), а на уровне соответствующей этим кодонам аминокислотной последовательности - в формировании структуры белка. Таким образом, структурно-функциональная организация этого участка имеет сложный характер, затрудняющий его изучение.

3.3.1. Частота встречаемости аминокислот в N-концевых позициях белков.

Известно, что частоты нуклеотидов в начале БКП отличаются от средних по району, J что может быть с их дополнительной функциональной нагрузкой в структуре сигнала инициации трансляции. В свою очередь, это может отражаться на частотах аминокислотных остатков в N-концевых позициях эукариотических белков. На рис. 4 приведены данные об аминокислотных остатках, частота которых в позиции 2 существенно отличается от средней по белку. Можно видеть, что существуют как J общие, так и видоспецифические закономерности. Во второй позиции аминокислотной последовательности (АП) Liliopsida, A. thaliana, X. laevis, G. gallus, M. musculus, H. sapiens достоверно перепредставлены аминокислоты: Ala, Glu, Gly, Asp, Ser. Во второй позиции аминокислотной последовательности S.cerevisiae, D. melanogaster достоверно перепредставлены аминокислоты Ser, Ala (Рис. 4).

Obs/Exp

с A. thaliana ■ H. sapiens s S.cerevisiae

Ala Glu Gîy Asp Ser Рис.4. Аминокислоты, чаще встречающиеся во второй позиции АП (Obs/Exp >1).

Можно отметить, что, за исключением Ser, во второй позиции белков эукариотических организмов достоверно перепредставлены те аминокислоты, кодоны которых начинаются с гуанина (Ala, Glu, Gly, Asp - все, кроме Val). С нашей точки зрения, эта закономерность хорошо согласуется с некоторыми экспериментальными данными, полученными ранее в экспериментах in vitro (Kozak, 1997): G в позиции +4 усиливал эффективность распознавания стартового кодона AUG вне зависимости от нуклеотида, расположенного в позиции +5, за единственным исключением: кроме того случая, когда в позиции +5 был расположен U. Кодоны, соответствующие валину, содержат комбинацию GU в +4 и +5 позициях БКП. По-видимому, тот факт, что Val (кодоны GUN) не встречается во второй позиции белка так же часто, как и другие аминокислоты, кодоны которых начинаются с G, может объясняться тем, что комбинация AUGGUN не усиливает распознавание стартового кодона трансляции и не поддерживается отбором в ходе эволюционного процесса. Таким образом, полученные нами данные позволяют предположить, что этот феномен распространяется на системы трансляции in vivo - причем и у животных, и у растений (эксперименты Kozak (1997) были проведены с использованием лизата ретикулоцитов кролика).

3.3.2. Взаимосвязь между 5'-и 3'-участками контекста стартового кодона AUG Мы предположили, что выборки мРНК с оптимальным (RnnAUG) и субоптимальным (YnnAUG, Y = С или U) 5'-контекстами стартового кодона могут отличаться по частотам нуклеотидов в позициях +4, +5 и связанным с ними контекстным параметрам (встречаемость кодонов и аминокислот), и эти различия позволят оценить функциональную эффективность сайта инициации трансляции (аналогичный подход был использован ранее: Kochetov, 2005; Kochetov et al., 2008). Для проверки этой гипотезы были сформированы выборки мРНК мыши и человека, содержащие в -3 положении различные нуклеотиды, и проведен сравнительный анализ частот нуклеотидов в позициях +4, +5. Результат оказался неожиданным: было найдено, что выборки с оптимальным и неоптимальным 5'-контекстами стартового кодона (RnnAUG и YnnAUG, соответственно) не различаются по частоте содержания G в позиции +4 (в табл. 5 приведена разность позиционных частот нуклеотидов в мРНК человека; можно видеть, что различие между выборками с контекстами стартового кодона RnnAUG (R"3) и YnnAUG (Y' ) составляет 0.013 и статистически недостоверно). Этот результат предполагал либо отсутствие функциональной значимости у нуклеотида в позиции +4, либо гетерогенный характер выборок RnnAUG и YnnAUG по этому признаку. Дальнейший анализ показал, что выборка RnnAUG действительно гетерогенна и мРНК с контекстами стартового кодона GnnAUG и AnnAUG должны рассматриваться независимо. Было обнаружено:

а) Выборки мРНК с вариантом 5'-контекста GnnAUG характеризуются статистически достоверно более высоким содержанием гуанина в положении +4 в сравнении с выборками с контекстами AnnAUG и YnnAUG (табл. 4). По-видимому, считающийся оптимальным вариантом контекста стартового кодона трансляции GnnAUGn на самом деле требует присутствия гуанина в позиции +4 (GnnAUGG). В то же время, для работы оптимального контекста AnnAUG гуанин в позиции +4 не нужен (мРНК с контекстом AnnAUG содержат G позиции +4 значительно реже, чем мРНК с YnnAUG и GnnAUG). Таким образом, оптимальный контекст RiinAUGG следует рассматривать как комбинацию двух вариантов (GnnAUGG и AnnAUGn).

Таблица 4. Различия между средними частотами нуклеотидов в позициях +4 и +5 выборок мРНК Я sapiens с пурином, аденином, гуанином или пиримидином в позиции -3 контекста AUG (R°nnAUG, A'3nnAUG, G"3nnAUG. Y"3nnAUG, соответственно)*

' __1____i --T1- T -T---г—-ч-т-п 1

AUGNnn, поз. +4

U

AUGnNn, поз. +5

U

R - Y"'

-0.005

0.013

-о.озр

0.023

-0.042

0.011

0.065

-0.03?

0.015

-0.022'

-0,032

0.039

-0,043J

0.001

0.067

-0.024

G"J - Y"-

-0.029

0.055

-0.030

0.004

-0.040'

0.024

0.0633

-0.047J

A"J - G":

0.043

-0.077

-0.001

0.035

-0.002

-0.024J

0.004

0.022

♦В таблице приведены значения разности частот нуклеотидов в позициях +4 и +5 между выборками мРНК, содержащими в -3 позиции пурин, пиримидин, аденин или гуанин; отрицательные значения значат, что частота соответствующего нуклеотида в выборке мРНК, содержащей пурин (на примере R"3 - Г3) в позиции -3 перед AUG, ниже, чем в содержащей пиримидин, положительные значения - соответственно, наоборот.

Уровень значимости (согласно Mann-Whitney [/-test) р <0.05; 2, р <0.01; р <0.001; статистически значимые различия (р <0.05) также выделены полужирным шрифтом.'

б) Отклонения в частотах встречаемости нуклеотидов в позиции +4 могут частично объясняться функциональной значимостью аминокислот, кодируемых вторым кодоном БКП. В табл. 5 приведены различия в содержании аминокислотных остатков в белках человека, кодируемых мРНК с различными вариантами контекста стартового кодона трансляции (AnnAUG, GnnAUG, YnnAUG). Найдено, что существуют определенные статистически достоверные взаимосвязи между нуклеотидом в позиции -3 (то есть, в некодирующей части мРНК) и предпочтительным использованием некоторых аминокислотных остатков. Можно видеть (табл. 5), что во второй позиции белков, кодируемых мРНК с вариантом контекста AnnAUG, единственной заметно перепредставленной аминокислотой является Ser. Белки человека, кодируемые мРНК с вариантом контекста GnnAUG , достоверно чаще содержат во второй позиции аминокислоты Ala, Glu, Gly и Asp (кодоны которых начинаются с G). При этом Val недопредставлен.

Нами также была сделана оценка частот встречаемости синонимических кодонов во второй позиции БКП, соответствующих наиболее перепредставленным аминокислотам во второй позиции белка (Ser, Ala, Glu). Можно видеть (табл. 6), что в мРНК с вариантом контекста GnnAUG перепредставлены некоторые из синонимических кодонов Ala и Gly - что может говорить о большей значимости гуанина в позиции +4 БКП, но не отвергает гипотезу о важности собственно аминокислотного остатка во второй позиции белка. С другой стороны, в мРНК с вариантом контекста AnnAUG во второй позиции БКП перепредставлены все синонимические кодоны Ser, что определенно говорит о значимости именно аминокислоты как таковой - тем более, что у серина шесть синонимических кодонов с различными нуклеотидами в позиции +4 БКП.

Таблица 5. Различия между средними частотами аминокислотных остатков во второй позиции белков, кодируемых выборками мРНК Нларгепя, у которых в позиции -3 контекста стартового кодона расположены аденин, гуанин или пиримидином (А"3, С3,

2 поз. белков A-'-Y- G-J-Y-J A"J-G"J 2 поз. белков A-'-Y" GJ-YJ A-J-G-J

Ala 0.014 0.046' -0.032' Arg -0.0091 0.000 -0.009'

Ser 0.0573 0.027' 0.029' Val 0.007 -0.007 0.014'

Glu -0.030' -0.005 -0.025' Met -0.013' -0.011' -0.002

Gly 0.003 0.024' -0.021' Phe 0.004 -0.001 0.0051

Asp -0.017' -0.003 -0.013' Gin -0.004 -0.005 0.001

Trp 0.002 0.003 0.000 Leu -0.020' -0.019' -0.001

Pro 0.000 -0.003 0.003 Cys -0.006' -0.009' 0.003

Asn 0.010' -0.001 0.011J His -0.005' -0.009' 0.004'

Thr 0.006 -0.002 0.008' lie -0.003 -0.009' 0.006'

Lys 0.008' -0.0102 0.018' Tyr -0.005' -0.006' 0.001

*В таблице приведены значения разности между средними частотами аминокислот во второй позиции белков, кодируемых мРНК, содержащими в -3 позиции аденин, гуанин или пиримидин; отрицательные значения означают (на примере А"3 - G"3), что частота встречаемости соответствующей аминокислоты во второй позиции белков, кодируемых выборкой мРНК AnnAUG ниже, чем в белках, кодируемых выборкой мРНК с вариантом контекста GnnAUG, положительные значения - соответственно, наоборот.

Уровень значимости (согласно Mann-Whitney ¡/-test) ', р <0.05; 2, р <0.01; 3, р <0.001; статистически значимые различия также выделены полужирным шрифтом.

Таблица 6. Различия между средними частотами синонимических кодонов во второй позиции БКП мРНК H.sapiens с аденином, гуанином или пиримидином в -3 положении контекста стартового кодона (A"3, G"3, Y'3)*

аминокислота кодон A-'-Y" GJ-Y-3 A-'-G"

Ala GCG 0.016' 0.028' -0.0122

GCU -0.003 -0.003 0.000

GCA 0.005 0.002 0.003

GCC -0.005 0.018' -0.024'

Gly GGG 0.003 0.012' -0.009'

GGC 0.002 0.016' -0.014'

GGU -0.002 -0.0041 0.002

GGA 0.000 0.001 0.000

Ser UCG 0.016' 0.014' 0.002

UCU 0.015' 0.003 0.011'

UCA 0.0051 -0.001 0.006'

UCC 0.011' 0.0061 0.005'

AGU 0.005' 0.002 0.002

AGC 0.005' 0.003 0.002

*В таблице приведены значения разности между средними частотами синонимических кодонов во второй позиции БКП между выборками мРНК, содержащими в -3 позиции аденин, гуанин или пиримидин; отрицательные значения означают (на примере А"3 - G"3), что частота встречаемости соответствующего кодона в мРНК с вариантом контекста AnnAUG ниже, чем в мРНК с вариантом контекста GnnAUG, положительные значения - соответственно, наоборот. Уровень значимости (согласно Mann-Whitney £/-test) р < 0.05; статистически значимо различающиеся значения выделены жирным.

Существовала некоторая вероятность, что выборки мРНК с разными вариантами контекста стартового кодона (AnnAUG, GnnAUG, YnnAUG) характеризуются различиями в общей контекстной организации, и выявленные закономерности не имеют отношения к сигналу инициации трансляции. Нами был проведен дополнительный сравнительный анализ этих выборок. Для этого были выбраны три удаленные от N-конца кодона позиции АП (58, 59, 60) и проанализированы различия между частотами нуклеотидов, кодонов и аминокислот в этих позициях между выборками мРНК, содержащими стартовый кодон в контекстах AnnAUG, GnnAUG и YnnAUG. Было показано, что выборки мРНК с различными нуклеотидами в -3 позиции не характеризовались статистически значимыми различиями в частотах аминокислот и соответствующих кодонов, то есть наблюдаемый феномен характерен именно для сайта инициации трансляции и второго кодона БКП.

Таким образом, в рамках диссертационной работы было впервые показано, что существуют устойчивые комбинации нуклеотидов в 5'- и З'-частях контекста стартового кодона, к которым относятся варианты оптимального контекста AnnAUGn и GnnAUGG. Обнаружена статистически достоверная взаимосвязь между вариантом контекста стартового кодона AnnAUG и присутствием аминокислотного остатка серина во второй позиции кодируемых такими мРНК белков. По-видимому, для варианта контекста стартового кодона AnnAUG, конформационные особенности РНК-белкового комплекса на стадии ассоциации субъединиц рибосом и инициации трансляции способствуют более эффективному формированию первой пептидной связи Met-Ser. Это может объяснять наблюдаемые закономерности.

Выводы

1. Показано, что 5'-нетранслируемые последовательности эукариотических мРНК характеризуются специфической контекстной организацией, способствующей инициации трансляции. Найдено, что мРНК высших растений (А. thaliana, Liliopsida) насекомых (D. melanogaster), птиц (G. gallus), животных (.X. laevis, М. musculus, Н.sapiens) характеризуются выраженным дисбалансом в содержании комплементарный нуклеотидов, снижающим потенциал формирования стабильной вторичной структуры.

2. Показано, что uORF, расположенные в пределах 5'НТП и перекрывающиеся с белок-кодирующей последовательностью, различаются по трансляционно-значимым свойствам. uORF, перекрывающиеся с белок-кодирующей последовательностью, чаще характеризуются большими размерами и субоптимальным контекстом стартового кодона, что говорит об их потенциальном кодирующем потенциале и более выраженном негативном влиянии на трансляцию основной рамки считывания.

3. Обнаружено, что существует взаимосвязь между нуклеотидами, занимающими ключевые позиции контекста стартового кодона трансляции млекопитающих: -3 и +4. Выявлено два устойчивых варианта оптимального контекста стартового кодона-ANNAUGN и GNNAUGG.

4. Впервые показано, что существует взаимосвязь между типом аминокислоты во второй позиции белка и 5'-контекстом стартового кодона трансляции млекопитающих. Выявлены устойчивые комбинации оптимального контекста стартового кодона трансляции: AnnAUG коррелирует с более частым присутствием во второй позиции белка остатка серина, GnnAUG - аланина и глицина.

Публикации в рецензируемых журналах:

1. Кочетов A.B., Сырник (Волкова) ОА., Рогозин И.Б., Глазко Г.В., Комарова М.Л., Шумный В.К. Контекстная организация 5'-нетранслируемых районов генов высших растений. Молекулярная биология. 2002. 36. 649-656.

2. Волкова О. А., Кочетов А. В., Титов С. Е., Колчанов Н. А. Потенциальные открытые рамки считывания в 5'-нетранслируемых районах эукариотических мРНК. Биофизика. 2006.51.615-621.

3. Волкова О.А., Титов С.Е., Кочетов А.В. Взаимосвязь контекстной организации сигнала инициации трансляции и аминокислотной последовательности на N-конце белков эукариот. Биофизика. 2006. 51(7): 11-17.

4. Kochetov A.V., Ahmad S., Ivanisenko V., Volkova O.A., Kolchanov N.A., Sarai A. uORFs, reinitiation and alternative translation start sites in human mRNAs. FEBS Lett. 2008. 582. 1293-1297.

5. Volkova O.A. Kochetov A.V. Interrelations between the nucleotide context of human start AUG codon, N-end amino acids of the encoded protein and initiation of translation. J Biomol. Struct. Dyn. 2010. 27(5) 611-618.

6. Kochetov A. V., Volkova O. A., Poliakov A., Dubchak L, Rogozin I.B. Tandem termintion signal in plant mRNAs. Gene. 2011. 481.1-6.

Материалы конференций (рецензируемые тезисы):

1. Kochetov A.V., Vorobiev P.G., Sirnik (Volkova) O.A., Kisselev L.L., Kolchanov N.A. Contextual features of yeast mRNA 5'UTRs potentially important for their translational activity. Materials of the second international conference BGRS, Novosibirsk, 2000

2. Kochetov A.V., Glazko G.V., Sirnik O.A., Rogozin I.B., Trinova E.A., Komarova M.L., Shumny V.K. Compositional properties of plant mRNA 5'Untranslateol regions: the presence of enhancer like motifs. Materials of the second international conference BGRS, Novosibirsk, 2000

3. Kochetov A.V., Sirnik O.A., Komarova M.L., Trifonova E.A., Kolchanov N.A., Shumny V.K. Translational features of 5'UTR-located miniORFs. Materials of the second international conference BGRS, Novosibirsk, 2000.

4. Volkova O.A., Kochetov A.V. Amino acid preferences at the N-terminal part of eukaryotic proteins correlating with a specific contextual organization of translation initiation signal. Proc. 5th totem. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk, 2006. V. l.P. 327-330.

5. Volkova O.A., Kochetov A.V. Interrelationship between N-terminal region of eukaryotic proteins and specific contextual organization of translation start site. Proc. Translational Control and Non-Coding RNA Meeting, Czech Republic, 2006

6. Volkova O.A., Kochetov A.V. Contextual organization of З'-end context of translation start site in eukaryotic mRNAs. Proc. 3rd Moscow Conference on Computational Molecular Biology. Moscow, 2007, P. 312-313.

7. Volkova O.A., Kochetov A.V. Fine structure of mammalian translation initiation signal. Proc. 6th Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk, 2008. P. 252.

8. Volkova O.A., Kochetov A.V. Interrelation between the translation initiation signal and the N-end of encoded protein in human mRNAs. Proc. Moscow Conference on Computational Molecular Biology, Moscow, 2009, P. 366.

9. Volkova O.A., Kochetov A.V. Role of N-end amino acids in translation of human proteins. Proc. 7th Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk, 2010. P.139.

10. Volkova O. A., Kochetov A. V. The mRNA characteristics potentially involved in recognition of non-AUG start codons in yeast mRNAs Proc. Moscow Conference on Computational Molecular Biology, Moscow, 2011, P. 170.

Подписано к печати 27.02.2012 г. Формат бумаги 60 х 90 1/16 Печ. л. 1. Уч. изд. л. 0,7 Тираж 110 экз. Заказ № 24

Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, пр. акад. Лаврентьева, 10

Текст научной работыДиссертация по биологии, кандидата биологических наук, Волкова, Оксана Анатольевна, Новосибирск

61 12-3/799

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ЦИТОЛОГИИ И ГЕНЕТИКИ СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК

На правах рукописи

ТРАНСЛЯЦИОННО-ЗНАЧИМЫЕ ХАРАКТЕРИСТИКИ 5 -НЕТРАНСЛИРУЕМЫХ РАЙОНОВ мРНК ЭУКАРИОТИЧЕСКИХ ГЕНОВ

Генетика - 03.02.07

Диссертация на соискание ученой степени кандидата биологических наук

Научный руководитель к.б.н., доцент А.В. Кочетов

Новосибирск 2012

ОГЛАВЛЕНИЕ

Список сокращений 4

Введение 5

Глава 1. Обзор литературы Ю

1.1. Структура эукариотических мРНК 10

1.2. Инициация трансляции по механизму линейного сканирования рибосом 1 з

1.2.1. Нуклеотидный контекст AUG кодона способствует его распознаванию в качестве сайта инициации трансляции 16

1.2.2. Инициация трансляции мРНК по механизму «сканирование

с подтеканием» 20

1.2.3.Реинициация трансляции 21

1.2.4. Механизмы инициации трансляции, отличные от линейного сканирования 24

1.3. Регуляция инициации трансляции 25

1.3.1. Общая регуляция инициации трансляции 25

1.3.2. Специфическая регуляция инициации трансляции 28

1.3.3. Структурные особенности S^-HTTI мРНК, способные влиять на эффективность инициации трансляции 31

1.3.3.1.Влияние вторичной структуры расположенной в составе 5'НТП на эффективность инициации трансляции 33

1.3.3.2. Функциональная значимость Зг контекста AUG кодона 35

1.4. Регуляция инициации трансляции лидерными открытыми рамками считывания 37

1.5. Заключение по обзору литературы 41 Глава 2. Материалы и методы 44

2.1. Формирование выборок нуклеотидных последовательностей 44

2.2. Использованные базы данных и программы 46

2.3. Методы статистического анализа 47

Глава 3. Результаты 49

3.1. Трансляционно-значимые характеристики 5'-НТП эукариотических мРНК 49

3.2. Трансляционно-значимые характеристики лидерных открытых рамок считывания (иОМ7) 63

3.3. Структура 5'-концевого участка нуклеотидной последовательности БКП 70

3.4. Взаимосвязь между 5'- и 3'-участками контекста стартового кодона трансляции 79

Глава 4. Обсуждение 83

Выводы Ю6

Список цитированной литературы 107

Приложение 123

Принятые сокращения:

нт. - нуклеотид Pu (R) -пурин Ру (Y) - пиримидин

А3 - аденин в позиции -3 перед стартовым кодоном трансляции

G"3 - гуанин в позиции -3 перед стартовым кодоном трансляции

Ру3 - пурин в позиции -3 перед стартовым кодоном трансляции

G3-кодоны, СЗ-кодоны, U3-кодоны - кодоны, содержащие в третьей позиции

гуанин, цитозин или урацил, соответственно.

5Л-НТП - 5' -нетранслиру емая последовательность, лидерная последовательность

З'-НТП - 3' -нетранслиру емая последовательность, трейлерная последовательность

АП - аминокислотная последовательность белка

БКП - аннотированная белок-кодирующая последовательность; (англ. CDS -coding DNA sequence)

OPC - открытая рамка считывания (англ. open reading frame)

uAUG - (англ. -upstream AUG) кодон AUG, расположенный в составе 5'НТП

dAUG - (англ. -downstream AUG) кодон AUG, расположенный в составе

БКП

uORF - (англ. -upstream ORF) открытая рамка считывания, начинающаяся с uAUG

IRES - internal ribosome entry site (внутренний сайт посадки рибосомы)

Введение

Актуальность проблемы

Известно, что мРНК эукариотических генов различаются по трансляционной активности, то есть по интенсивности синтеза белка в процессе трансляции. Считается, что инициация является лимитирующей стадией процесса трансляции в клетках эукариот. 5'-нетранслируемая последовательность мРНК (участок между 5'-концом и началом белок-кодирующей последовательности (БКП)) участвует во взаимодействии с факторами аппарата трансляции и 40S субъединицами рибосом. Известно, что характеристики нуклеотидной последовательности 5'-НТП оказывают существенное влияние на эффективность инициации трансляции (Kozak, 2005; Kochetov, 2008). Некоторые из таких функционально-значимых характеристик, в частности, стабильная вторичная структура и потенциальные стартовые кодоны в районе 5'-НТП могут ингибировать трансляцию. Показано, что небольшие открытые рамки считывания (upstream ORF, uORF), содержащиеся в составе 5'-НТП многих эукариотических мРНК, в некоторых случаях играют важную роль в пост-транскрипционном контроле экспрессии соответствующих генов. Однако, в подавляющем большинстве случаев их функция остается не изученной. В целом, имеющаяся информация о структурно-функциональной организации 5'-НТП недостаточна. Выявление трансляционно-значимых характеристик 5'-НТП важно для предсказания трансляционной активности эукариотических мРНК и особенностей контроля экспрессии генов на пост-транскрипционном уровне, а также для предсказания связи между мутациями в этом районе и патологическими состояниями.

На момент начала работы имеющиеся в литературе данные о характеристиках 5'-НТП в основном были получены в экспериментах in vitro, не было известно, существуют ли у 5'-НТП, как у функционального района гена, какие-либо общие или таксон-специфические особенности. Кроме

этого, не было достаточной информации о структуре сигнала инициации трансляции. Известно, что распознавание триплета AUG в качестве стартового ко дона зависит от нуклеотидного окружения (контекста). Считалось, что основную роль выполняют нуклеотиды, расположенные непосредственно перед AUG в 5'-НТП (5'-часть контекста). Согласно некоторым экспериментальным данным, эффективность распознавания инициаторного кодона также зависела от нуклеотидов, расположенных непосредственно после AUG (т.е., 3'-части контекста, совпадающей с началом БКП). Однако, имеющиеся экспериментальные данные были противоречивы, что не позволяло точно определить полную структуру сигнала инициации трансляции и затрудняло предсказание их локализации и эффективности.

Цели и задачи исследования.

Целью работы являлось изучение трансляционно-значимых характеристик нуклеотидных последовательностей 5'-нетранслируемых районов мРНК генов эукариотических организмов. В рамках работы были поставлены следующие задачи.

1. С помощью компьютерного анализа исследовать контекстные характеристики нуклеотидных последовательностей 5'-НТП мРНК генов дрожжей, высших растений, насекомых, амфибий, птиц и млекопитающих и определить параметры, связанные с эффективностью инициации трансляции.

2. Исследовать роль нуклеотидов, расположенных непосредственно после кодона AUG (3'-концевого участка контекста), в функционировании сигнала инициации трансляции в мРНК млекопитающих и растений.

Научная новизна.

Впервые проведен систематический анализ контекстных характеристик, специфических для 5'-НТП мРНК генов Arabidopsis thaliana, Liliopsida,

Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens и Saccharomyces cerevisiae. Обнаружено, что для 5'-НТП высших растений, насекомых, птиц и животных характерен выраженный дисбаланс в содержании комплементарных нуклеотидов. По-видимому, эта особенность лидерных районов мРНК сформировалась в ходе эволюции и является следствием естественного отбора, направленного на элиминацию стабильных вторичных структур, снижающих эффективность трансляции. Показано, что 5'НТП эффективно транслируемых мРНК эукариотических организмов характеризуются меньшим размером, отсутствием (или меньшим числом) триплетов AUG, большим дисбалансом в содержании комплементарных нуклеотидов.

Обнаружено, что трансляционно-значимые характеристики uORF (размер, контекст стартового кодона), расположенных в 5'НТП мРНК генов млекопитающих, птиц, высших растений и насекомых, существенно различаются в зависимости от их расположения в пределах 5'НТП (локализованные в 5'-НТП, перекрывающиеся с БКП и сливающиеся с БКП). uORF, локализованные в пределах 5'НТП, характеризуются небольшими размерами, что позволяет осуществлять трансляцию основной рамки считывания с помощью механизмов «сканирования с подтеканием» (leaky scanning) и/или реинициации и говорит о регуляторных функциях этого типа лидерных рамок считывания. uORF, перекрывающиеся с БКП, характеризуются значительно большими размерами, что говорит об их неучтенном кодирующем потенциале и более выраженном негативном эффекте на трансляцию основной рамки считывания.

Впервые показано, что существует взаимосвязь между нуклеотидами в -3 и +4 позициях контекста стартового кодона в мРНК млекопитающих и высших растений: выявлено два устойчивых варианта оптимального контекста: AnnAUGn и GnnAUGG.

Обнаружено существование функциональной взаимосвязи между аминокислотами в N-концевом участке белка и эффективностью инициации трансляции: выявлены устойчивые комбинации нуклеотидов в -3 позиции контекста и аминокислотных остатков во второй позиции белков млекопитающих и растений. AnnAUG коррелирует с более частым присутствием во второй позиции белка остатка серина, GnnAUG - аланина и глицина. По-видимому, комбинации определенного нуклеотида в -3 позиции контекста и аминокислотного остатка во второй позиции белка увеличивают эффективность определённых стадий процесса инициации трансляции (предположительно, формирования первой пептидной связи).

Практическая значимость

Выявленные трансляционно-значимые характеристики эукариотических мРНК (дисбаланс в содержании комплементарных нуклеотидов в 5'-НТП, оптимальные варианты нуклеотидного контекста стартового кодона трансляции (GnnAUGG, AnnAUG), а также потенциальное участие аминокислотных остатков во второй позиции белка в инициации трансляции) могут быть использованы для улучшения существующих методов предсказания трансляционной активности эукариотических мРНК и сайтов инициации трансляции. Полученные данные были использованы для оптимизации сайтов инициации трансляции при планировании генетических конструкций для получения трансгенных растений в лаборатории генной инженерии ИЦиГ СО РАН. Положения, выносимые на защиту: 1. 5'НТП эффективно транслируемых мРНК генов Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens и Saccharomyces cerevisiae характеризуются выраженным дисбалансом комплементарных нуклеотидов, небольшими размерами, отсутствием (или небольшим числом) uAUG.

2. Характеристики лидерных рамок считывания (uORF) Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens, расположенных либо в пределах 5'НТП, либо перекрывающихся с БКП, статистически достоверно различаются, что может свидетельствовать об отличиях в их функциях.

3. Оптимальный контекст стартового кодона трансляции в мРНК млекопитающих включает две устойчивые комбинации нуклеотидов в позициях -3 и +4: AnnAUGN, GnnAUGG.

4. Эффективность инициации трансляции может зависеть от определенных комбинаций нуклеотида в позиции -3 перед кодоном AUG и аминокислотного остатка, расположенного во второй позиции белка: в частности, AnnAUG коррелирует с более частым присутствием серина, GnnAUG - аланина и глицина.

Апробация работы

Материалы диссертации были представлены на: Международной конференции «Генетика в России и мире», Москва, 2006; Translational Control and Non-Coding RNA Meeting, Czech Republic, 2006; Международной молодежной научно-методической конференции «Проблемы молекулярной и клеточной биологии» Томск, 2007; Moscow Conference on Computational Molecular Biology,Moscow, 2007, 2009, 2011; Conference on Bioinformatics of Genome Regulation and Structure, Novosibirsk, 2000, 2006, 2008, 2010.

Публикации

По теме диссертации опубликовано 16 работ, из них: 6 в рецензируемых журналах (из перечня ВАК), 10 тезисов.

Глава 1. ОБЗОР ЛИТЕРАТУРЫ

Контроль экспрессии гена осуществляется на различных уровнях, таких как транскрипция, процессинг пре-мРНК и трансляция, а также зависит от регуляции цитоплазматической стабильности мРНК и белка. Считается, что паттерн экспрессии эукариотических генов в основном определяется на уровне транскриции, однако в появляется все больше данных, показывающих важную роль пост-транскрипционного контроля.

Регуляция трансляции может осуществляться на каждой из ее стадий: инициации, элонгации и терминации. Считается, что интенсивность процесса трансляции в эукариотических клетках в большинстве случаев определяется эффективностью инициации, включающей взаимодействие мРНК с трансляционными факторами и 40S субъединицей рибосомы. Регуляция на стадии инициации трансляции обычно включает изменение интенсивности синтеза белка (общее или специфическое для определенной ткани, времени развития или в зависимости от внешнего воздействия). В некоторых случаях контроль на стадии инициации трансляции может приводить к изменению спектра синтезируемых с мРНК белковых продуктов (Кочетов, 2006).

1.1. Структура мРНК

Матричная РНК (мРНК) является посредником между геномной ДНК и белоксинтезирующим аппаратом. С геномной ДНК транскрибируется пре-мРНК, содержащая интроны, которые удаляются в результате сплайсинга. В ядре также происходит процессинг пре-мРНК (кэпирование с 5'-конца и полиаденилирование на 3'-конце. Блок-схема, отражающая организацию зрелой молекулы эукариотической мРНК приведена на рис. 1. Можно видеть, что в направлении от 5' к 3'-концу типичная мРНК включает кэп, 5" нетранслируемую последовательность (5ЛНТП, 5'UTR), белок-кодирующую последовательность (БКП, CDS), Зл нетранслируемую последовательность (З'НТП, 3'UTR) и поли (А)- хвост (poly(A)-tail) (Рис. 1). В подавляющем

большинстве случаев эукариотическия мРНК моноцистронны, то есть содержат одну полноразмерную БКП (Kozak, 1983а).

ЮП У-НТП БКП У-Ш поли(А)-хвост

I /-^-s/---N-v-А-V-Л-\

1 АА...ААА

Старт-кодон Стоп-кодон

(AUG) (UAG, UGA, UAA)

Рис. 1. Схема мРНК эукариот: кэп, 5Л нетранслируемая последовательность (5ЛНТП), белок кодирущая последовательность (БКП), ЗТТЩ поли(А)-хвост

Как правило, эукариотическая мРНК начинается с кэпа (инвертированного метилированного GTP (7mG(5')ppp(5')N), где N - первый нуклеотид мРНК). Кэп-структура нужна для: стабилизации мРНК, повышения эффективности трансляции, связывания 40S рибосомной субъединицы, а также переноса 40S субъединицы с поли(А) "хвоста" на 5'-конец мРНК (при участии РАВР) для начала следующего раунда трансляции (Holcik, Pestova, 2007). За кэпом следует 5'-нетранслируемая лидерная последовательность. Анализ нуклеотидных последовательностей эукариотичеких мРНК, показал, что в составе 5"НТП часто содержатся триплеты AUG (upstream AUG, uAUG) и начинающиеся с них открытые рамки считывания (upstream open reading frame, uORF) (Кочетов, 2006). В связи с этим термин нетранслируемый представляется не вполне адекватным, видимо, 5"НТП следует определять как район мРНК, расположенный выше стартового кодона трансляции основной БКП. Необходимо учитывать то, что границы БКП эукариотических мРНК, представленных в банках нуклеотидных последовательностей, предсказаны, а не определены экспериментально, и в подавляющем большинстве случаев в мРНК аннотирован только один стартовый кодон трансляции. Точность предсказания зависит от адекватности использованных критериев и может варьировать.

Эффективность инициации трансляции зависит от структурных характеристик 5ЛНТП (которые будут подробно рассмотрены ниже). Сама кодирующая область начинается со стартового кодона AUG и заканчивается стоп-кодоном (UGA, UAG UAA). За стоп-кодоном следует З'-НТП, которая также важна для регуляции синтеза белка. На 3'-конце каждой мРНК находится нуклеотидная последовательность, состоящая из поли-аденозинов (поли (А) - хвост; также может включать остатки урацила), которая определяет время полужизни мРНК в цитоплазме. Распад мРНК начинается с постепенного деаденилирования с 3'-конца. Когда поли (А) - хвост укорачивается настолько, что не может более связывать комплекс регуляторных белков, происходит отрезание кэпа. После этого мРНК уже не может участвовать в инициации трансляции, и расщепляется экзонуклеазами. Поли (А) может нести ещё и дополнительную функцию регуляции трансляции. Если рибосома не встречает стоп-кодона (например, при мутации или сдвиге рамки считывания), то после трансляции некодирующей области рибосома доходит до поли(А)-хвоста, и последний транслируется в виде поли-лизинов на С-конце мутантного белка. Эта поли-лизиновая последовательность является нефизиологической потому, что грубо нарушает трехмерную структуру белка. Дефектные белки быстро распознаются протеасомами и расщепляются, а затем распознаётся и деградирует сама мутантная мРНК (Ito-Harashima et al., 2007). Для эукариот, а также для вирусов характерно несколько вариантов инициации трансляции: линейное сканирование (linear scanning; Kozak, 2005), внутренние сайты инициации (internal ribosome entry sites; Stoneley and Willis 2004; Jackson 2005) и шунтирование потока рибосом (ribosome shunt; Pooggin, 2001). В настоящее время нет четких критериев, позволяющих предсказать механизм инициации трансляции по нуклеотидной последовательности мРНК. Однако представляется достаточно вероятным, что и внутренняя инициация, и участки шунтирования потока рибосом

требуют присутствия в составе 5"НТП специфических сигналов, в то время как линейное сканирование представляет собой базовый механизм инициации трансляции, который работает при наличии кэпа на 5"-конце матрицы. Считается, что инициация трансляции большинства эукариотических генов происходит по механизму линейного сканирования (Kozak, 2005, 2007).

1.2. Иници