Бесплатный автореферат и диссертация по биологии на тему
Структурно-функциональная организация района инициации трансляции в мРНК эукариотических генов
ВАК РФ 03.02.07, Генетика

Автореферат диссертации по теме "Структурно-функциональная организация района инициации трансляции в мРНК эукариотических генов"

На правах рукописи

005532024

КОЧЕТОВ АЛЕКСЕЙ ВЛАДИМИРОВИЧ

Структурно-функциональная организация района инициации трансляции в мРНК эукариотических генов

03.02.07 - генетика 03.01.09 - математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора биологических наук

15 АВГ ¿ШЗ

Новосибирск - 2013

005532024

Работа выполнена в лаборатории генной инженерии Федерального государственного бюджетного учреждения науки Институте цитологии и генетики Сибирского отделения Российской академии наук (ИЦиГ СО РАН), г. Новосибирск, Россия

Научный консультант: академик РАН, доктор биологических наук

Шумный Владимир Константинович

Официальные оппоненты: Инге-Вечтомов Сергей Георгиевич,

академик РАН, доктор биологических наук, зав. кафедрой генетики и селекции Санкт-Петербургского государственного университета, г. Санкт-Петербург

Дымшиц Григорий Моисеевич,

доктор биологических наук, профессор, зав. кафедрой естественных наук СУНЦ Новосибирского государственного университета г. Новосибирск

Бажан Сергей Иванович,

доктор биологических наук, зав. теор. отделом ФГУН ГНЦ вирусологии и биотехнологии «Вектор», пос. Кольцове Новосибирской обл.

Ведущее учреждение: ФГБУН Институт общей генетики им. Н.И.

Вавилова РАН, г. Москва

Защита состоится " J?" Р/С.2013 г. на утреннем заседании диссертационного совета Д 003.011.01 по защите диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук в ИЦиГ СО РАН по адресу: 630090 г.Новосибирск, пр.ак. Лаврентьева, 10. Тел/факс: (383)3634906; Ф: (383)3331278, e-mail: dissov@bionet.nsc.ru. С диссертацией можно ознакомиться в библиотеке ИЦиГ СО РАН

Автореферат разослан " £" ¿aJ^csntno 13 г.

Ученый секретарь диссертационного совета,

доктор биологических наук . ' Т.М. Хлебодарова

Актуальность проблемы i

Сигнал инициации трансляции (т.е. совокупность контекстных и-структурных характеристик мРНК, определяющих выбор и эффективность распознавания стартового кодона трансляции) является одним из базовых элементов структуры гена. Предсказание позиции стартового кодона (сайта инициации трансляции) было основано на нескольких критериях, включающих (помимо целостности открытой рамки считывания) расположение по отношению к 5'-концу мРНК и нуклеотидное окружение (контекст). В рамках этой модели считалось, что эукариотические мРНК содержат одну открытую рамку считывания и кодируют один белок, поэтому подавляющее большинство мРНК в банках данных нуклеотидных последовательностей содержат один стартовый кодон. Однако, часть экспериментальных данных не укладывалась в эти рамки. Например, было показано, что некоторые мРНК могут содержать несколько сайтов инициации трансляции и открытых рамок считывания (Kozak, 1986; Yang et al., 1998; Bab et al., 1999 и др.), в распознавании стартовых кодонов в субоптимальном нуклеотидном контексте могут участвовать элементы вторичной структуры РНК (Kozak, 1990 и др.), структура 5'-нетранслируемой последовательности (5'-НТП, участка между 5'-концом мРНК и началом белок-кодирующей последовательности (БКП)) в целом может влиять на эффективность инициации трансляции и выбор стартовых кодонов (Gallie et al., 1987; Jobling & Gehrke, 1987; Kozak, 1987 и др.) и т.д. Таким образом, существовавшие представления о структуре сигнала инициации трансляции были основаны на упрощенной модели, не учитывающей как возможность существования альтернативных стартовых кодонов, так и возможность присутствия дополнительных сигналов, модулирующих эффективность распознавания сайтов инициации трансляции. Определение структуры и эффективности функционирования сигнала инициации трансляции является необходимым этапом в предсказании организации и параметров экспрессии эукариотического гена в целом, поэтому исследования в этом направлении рассматриваются как актуальные и фундаментально-значимые. Цель настоящей работы заключалась в изучении структурно-функциональной организации сигнала инициации трансляции в мРНК эукариотических генов. Задачи работы включали:

1. Выявление характеристик 5'-НТП мРНК, связанных с их функцией в

процессе инициации трансляции в клетках эукариотических организмов.

2. Изучение организации сигнала инициации трансляции в эукариотических мРНК, включающее:

(а) оценку возможности использования нескольких сайтов инициации трансляции;

(б) анализ роли дополнительных характеристик РНК (элементов вторичной структуры и нуклеотидного контекста стартового кодона) в распознавании сайтов инициации трансляции;

3. Оценка вклада альтернативной трансляции в кодирующий потенциал мРНК и протеом эукариотических клеток.

Научная новизна. Обнаружено, что 5'-НТП эукариотических мРНК обладают район-специфическими характеристиками, приводящими к отсутствию стабильной вторичной структуры и, как следствие, способствующими эффективной инициации трансляции (дисбаланс в содержании комплементарных нуклеотидов G/C и A/U). Впервые показано, что мРНК эукариотических генов, экспрессирующихся на высоком уровне, оптимизированы для поддержания высокого уровня трансляционной активности по многим характеристикам (контекст стартового кодона трансляции, контекст терминатора трансляции, размер и особенности нуклеотидного состава 5'-НТП, отсутствие лидерных рамок считывания). Разработан первый способ предсказания трансляционной активности мРНК в клетках млекопитающих, двудольных и однодольных растений по структуре 5'-нетранслируемого района. Найдено, что некоторые мРНК дрожжей и млекопитающих могут содержать элементы вторичной структуры, локализованные в определенной позиции белок-кодирующей последовательности и способные увеличивать эффективность распознавания стартовых кодонов трансляции в субоптимальном контексте. Разработан информационный ресурс, позволяющий предсказывать наличие «компенсаторной» вторичной структуры в молекуле мРНК. Показано, что характеристика «размер поверхности молекулы, доступной для взаимодействия» (accessible source area, ASA) для участков молекулы РНК контекстно-зависима, при этом кодоны AUG и UGA характеризуются высокими значениями ASA, что могло служить одной из причин выбора именно этих кодонов в качестве сайтов инициации и терминации трансляции на ранних этапах эволюции жизни. Уточнена структура контекста стартового кодона трансляции в мРНК

млекопитающих: обнаружено, что аминокислотные остатки во второй позиции полипептидов человека и мыши могут влиять на эффективность инициации трансляции.

Впервые показано, что в структуре эукариотических мРНК с высокой частотой могут содержаться альтернативные стартовые кодоны трансляции. Продемонстрировано, что М-концевые трансляционные изоформы белков млекопитающих, растений и дрожжей часто различаются по предсказанной субклеточной локализации, что может быть связано с их функциональной значимостью. Сделана оценка возможности альтернативной терминации трансляции в клетках арабидопсиса и риса: найдено, что вклад этого механизма в синтез трансляционных изоформ белков в сравнении с альтернативной инициацией трансляции значительно менее выражен.

Положения, выносимые на защиту.

1. Базовые контекстные характеристики нуклеотидных последовательностей 5'-НТП мРНК генов эукариот эволюционно адаптированы для эффективного взаимодействия с аппаратом трансляции.

2. Эффективность распознавания стартового кодона трансляции может модулироваться факультативными сигналами, к которым относятся элементы стабильной вторичной структуры РНК и определенные комбинации нуклеотидов в позициях 5'-контекста сайта инициации трансляции и аминокислотных остатков во второй позиции соответствующих полипептидов.

3. Эукариотический сигнал инициации трансляции с высокой частотой содержит альтернативные стартовые кодоны. Альтернативная инициация трансляции вносит значительный вклад в протеом эукариотических клеток.

Теоретическая значимость работы. Разработана расширенная модель структурно-функциональной организации эукариотического сигнала инициации трансляции, включающего факультативные элементы - модуляторы эффективности распознавания стартовых кодонов. Уточнены представления о значимости контекстной организации 5'-НТП эукариотических мРНК: предложена гипотеза о существовании «распределенных» сигналов — элементов контекста, вклад каждого из которых в функциональную активность 5'-НТП относительно мал и может быть значим для высокоэкспрессирующихся генов.

Научно-практическая значимость работы. В работе получены данные, корректирующие методы предсказания эффективности трансляции и

кодирующего потенциала эукариотических мРНК. Разработаны оригинальные методы (Leader_RNA, AUG_hairpin) и база данных (TRSIG), которые могут использоваться для предсказания характеристик мРНК и для дизайна генетических конструкций для проведения экспериментов в областях генетики и биотехнологии растений и животных.

Апробация работы. Результаты работы были доложены или представлены на II Международном конгрессе «Биотехнология: состояние и перспективы развития», (Москва, 2003), III съезде ВОГИС (Москва, 2004), International Conference of Bioinformatics of Genome Regulation & Structure (Новосибирск 1998, 2000, 2002, 2004, 2006, 2008, 2010, 2012), International Moscow Conference on Computational Molecular Biology (Москва 2003, 2005, 2007, 2009, 2011), Genome Informatics Conference (Токио, 2001; Иокогама 2004; 2005), 8lh International Engelhardt Conference on Mollecular Biology "RNA-protein interactions" (Москва, 2006), Conference on Translational Control and Non-coding RNA (Nove Hrad, Чехия 2006), German-Russian Forum Biotechnology (Новосибирск, 2009), International Conference on Plant Genetics, Genomics and Biotechnology (Новосибирск, 2010), Joint Russian-French Seminar "Genomics, Proteomics, Bioinformatics" (Новосибирск, 2010), Joint Indo-Russian Workshop "Predictive Biology using Systems and Integrative Analysis and Methods" (Индия, 2010), German/Russian Workshop on Integrative Biological Pathway Analysis and Simulation (Германия, 2009, 2010, 2011, 2012).

Публикации. По материалам диссертации опубликовано 96 научных работ, из них статей — 31, в том числе в зарубежной печати - 18. Основные результаты получены автором самостоятельно. Ряд исследований выполнен с участием М.П. Пономаренко, И.Б. Рогозина, И.И. Титова, Н.А. Колчанова, Л.Л. Киселева, Д.Г. Воробьева, А.Г. Пальянова, О.А. Волковой, Г.А. Базыкина, В.А. Иванисенко, В.Н. Бабенко, A. Sarai, I. Ventoso, S. Ahmad.

Структура и объем работы. Диссертация включает введение, обзор литературы, материалы и методы, результаты, обсуждение, выводы и список литературы (484 источника). Работа изложена на 225 страницах машинописного текста, включая 31 рисунок и 47 таблиц.

Благодарности. Автор глубоко признателен сотрудникам отдела системной биологии и лаборатории генной инженерии ИЦиГ СО РАН. Особую признательность автор выражает академику РАН Н.А. Колчанову,

инициировавшему исследования в области структурно-функциональной организации мРНК эукариот в ИЦиГ СО РАН, академику РАН В.К. Шумному, поддерживавшему эту работу на всех этапах проведения, академику РАН J1.J1. Киселеву - за плодотворное обсуждение.

МАТЕРИАЛЫ И МЕТОДЫ Выборки нуклеотидных и аминокислотных последовательностей. В

диссертационную работу включены результаты компьютерного анализа выборок нуклеотидных и аминокислотных последовательностей, полученные в разное время (с 1996 по 2011 год). Соответственно, использованные выборки значительно различаются по объему и представительности, что отражает доступные на тот момент времени данные, поэтому содержание конкретных выборок приведено в соответствующих разделах главы «Результаты». Для составления выборок нуклеотидных и аминокислотных последовательностей использованы несколько источников: банки данных GenBank (основной раздел или подраздел RefSeq (http://www.ncbi.nlm.nih.gov/nucleotide/)), EMBL (http://srs.ebi.ac.uk/), а также в отдельных случаях выборки экспериментально верифицированных нуклеотидных последовательностей функциональных районов генов собирали на основе анализа литературных данных. Типовой запрос на выделение кДНК-карточек БД GenBank через веб-интерфейс имел следующий вид: "Homo sapiens AND complété CDS" (для другого организма использовали его видовое название; complété CDS позволяет отбирать карточки, в которых - с точки зрения аннотатора — содержится полноразмерная белок-кодирующая последовательность). При этом для выделения карточек из БД GenBank также применяли дополнительные поля: Limits: "mRNA; Genomic DNA/RNA, excluding ESTs, STSs, GSS, working draft, and patents"; в ряде случаев использовали RefSeq. Для выделения карточек из БД EMBL применяли SRS портал, примеры полей и вариантов запросов: "Organism" (например, Arabidopsis thaliana); "Molecule" (mRNA); "FtKey", (CDS); "Description" (complété CDS). Для выделения карточек полноразмерных мРНК использовали информацию из таблицы определителей (поля "prim transcript", "precursor_RNA", "5'UTR"). Методы и программы. Для выделения участков нуклеотидных последовательностей (5'-НТП, район стартового кодона трансляции, БКП, 3'-НТП, район стоп-кодона) применяли программу ReadSeq (версия 2.1.3). Для очистки выборок от высокогомологичных последовательностей была

использована программа CleanUp (Grillo et al., 1996). Для проведения отдельных видов компьютерного анализа нуклеотидных последовательностей был написан набор специальных программ на языке Euphoria (версия 2.2). Кроме этого, в работе была использована программа MGL (Molecular Genetic Language) (Колпаков и Бабенко, 1997), любезно предоставленная Ф.А. Колпаковым. Эта программа позволяет осуществлять базовые операции при работе с выборками нуклеотидных последовательностей в формате GenBank и EMBL (выделять группы карточек по заданным спискам идентификаторов или входных номеров), а также осуществлять компьютерный анализ выборок в FASTA-формате (расчет моно- и динуклеотидного состава (наблюдаемого и ожидаемого), выделение лидерных рамок считывания (uORF), выделение участков нуклеотидных последовательностей и их выравнивание). Для анализа вторичной структуры РНК применяли Венский пакет программ (Hofacker, 2003) Статистический анализ. Для проведения статистического анализа использовали пакет программ Statistica for Windows (Statsoft , Tulsa, USA). Гипотезы о сходстве или различиях выборок по средним значениям характеристик проверяли с помощью /-критерия Стьюдента или {/-критерия Манна-Уитни; связь между переменными оценивали на основании значений коэффициентов линейной и ранговой корреляции по Пирсону (linear correlation coefficient, LCC) и Кендаллу (rank tau coefficient, TAU), соответственно; отличия наблюдаемых значений характеристик от ожидаемых оценивали с помощью критерия х2- Для оценки достоверности различий между распределениями использовали тест Колмогорова-Смирнова.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ 1. Структурно-функциональная организация 5'-НТП мРНК эукариотическнх организмов. К моменту начала исследований в структуре лидерных районов мРНК эукариотическнх генов не было выявлено функциональных элементов (за исключением контекста стартового кодона), поэтому 5'-НТП рассматривался как плацдарм для связывания факторов инициации трансляции и 40S субъединицы рибосомы, нуклеотидная последовательность которого не должна была создавать существенных препятствий для «линейного сканирования» (Kozak, 1987). В рамках работы был проведен компьютерный анализ характеристик мРНК эукариот, который показал

следующее: (1) в 5'-НТП с высокой частотой (от 16% до 52% мРНК разных таксонов) содержатся триплеты AUG (upstream AUG, uAUG); (2) у значительного количества мРНК (от 9% до 24% у разных таксонов) аннотированный стартовый кодон трансляции расположен в субоптимальном контексте; (3) в банках данных нуклеотидных последовательностей в структуре эукариотических мРНК аннотирована (предсказана) одна открытая рамка считывания, то есть возможность альтернативной инициации трансляции не принимается во внимание (Kochetov et al., 1998; 1999; Rogozin et al., 2001; Кочетов и др., 2002a; 2002b). Для выявления особенностей организации лидерного района, связанных с его функцией, был проведен анализ характеристик 5'-НТП в сравнении с другими некодирующими участками генов - базальным промотором, 5'-проксимальным интроном и З'-НТП. Особый интерес представляло сравнение базального промотора и 5'-НТП, поскольку эти участки ДНК граничат друг с другом. Оказалось (табл. 1), что нуклеотидный состав 5'-НТП и базального промотора близок, в то время как средние частоты нуклеотидов в З'-НТП и проксимальном интроне иные.

Таблица 1. Средние частоты нуклеотидов и индексы самокомплементарности в некодирующих районах генов эукариот*__

5'-НТП З'-НТП

Организм A G С и Igc Iau A G С и Igc •au

A. thaliana 33 17 22 29 0.28 0.24 30 17 15 38 0.17 0.16

Н. sapiens 20 32 30 18 0.15 0.20 27 22 23 29 0.11 0.11

S. cerevisiae 41 15 19 25 0.29 0.32 33 13 15 39 0.22 0.14

Промотор Инт рон 1

A G С T Igc Iau A G С и Igc Iau

A. thaliana 33 17 20 30 0.13 0.08 27 17 15 41 0.19 0.24

Н. sapiens 21 29 29 21 0.10 0.10 22 27 25 26 0.12 0.12

S. cerevisiae 31 17 18 34 0.15 0.16 - - - - - -

♦Размер выборок 5'-НТП и З'-НТП, использованных для этого анализа: A. thaliana - 13768; Н. sapiens - 23307, S. cerevisiae - 171. Размер выборок 5'-концевых интронов: A. thaliana - 2186; Н. sapiens - 2479; Размер выборок промоторных районов (500 н выше старта транскрипции): A. thaliana — 107; Н. sapiens - 2479 (БД EPD), S. cerevisiae - 171 (собраны по литературным данным)_

Согласно модели «линейного сканирования» и некоторым экспериментальным данным (Kozak, 1989), негативное влияние на инициацию трансляции могли оказывать элементы стабильной вторичной структуры, поэтому предполагалось, что 5'-НТП должны содержать меньше нуклеотидов G и С, вносящих основной вклад в энергию комплементарных взаимодействий (Kozak, 1987). Однако,

полученные нами данные противоречили этой гипотезе: содержание G+C в 5'-НТП оказалось даже выше, чем в других районах гена (табл. 1). При этом анализ показал, что 5'-НТП характеризуются выраженным дисбалансом в содержании комплементарных нуклеотидов. Нами были предложены индексы самокомплементарности (IGC = |G-C|/(G+C); IAu = |A-U|/(A+U), A,G,C,U -частоты встречаемости нуклеотидов (Кочетов и др., 2002а,б)), позволяющие оценить, насколько частоты комплементарных нуклеотидов близки друг к другу. Оказалось, что 5'-НТП характеризуются наибольшим дисбалансом в содержании G/C и A/U (табл. 1), что говорит об эволюционной оптимизации характеристик этого района гена, направленной против формирования стабильных структур. Согласно модели «лимитирующего звена» (Ратнер, 1990), характеристики мРНК генов высокого уровня экспрессии должны поддерживать высокую интенсивность процесса трансляции. Для проверки этого предположения в рамках работы был проведен сравнительный анализ характеристик генов высокого (High) и низкого (Low) уровней экспрессии млекопитающих. На момент проведения работы (1997 г.) систематических экспериментальных данных в литературе не было, поэтому в качестве выборки High (102 н.п.) использовали гены рибосомных белков, EFla, белков теплового шока, гистонов, белков цитоскелета; в качестве выборки Low (196 н.п.) были взяты гены транскрипционных факторов. Было найдено, что параметры мРНК высокого и низкого уровне экспрессии достоверно отличаются от выборки Low:

Рисунок 1. Распределение размеров 5'-НТП мРНК генов млекопитающих высокого (белые столбики) и низкого (черные столбики) уровней экспрессии

III._______

50 150 250 350 4 50 550 650 750 8 50 950 Размер, нт

их 5'-НТП чаще меньше по размеру (рис. 1), дисбаланс в содержании комплементарных нуклеотидов значительно выше (5'-НТП с высоким дисбалансом (в два и более раза) в выборке High встречались в два раза чаще, чем в Low), частота uAUG ниже (Obs/Exp в выборке High = 0.33, Low = 0.51), контекст стартового кодона ближе к оптимальному (RnnAUG в выборке High = 96%, Low = 77%), чаще встречался более эффективный стоп кодон UAA (High =

44%, Low = 29%) (Kochetov et al., 1998).

Таким образом, было найдено, что структура 5'-НТП мРНК генов высокого уровня экспрессии оптимизирована для поддержания более эффективной инициации трансляции. Для детального анализа были использованы мРНК генов Saccharomyces cerevisiae, для которых на момент проведения исследований появились количественные данные о содержании мРНК в цитоплазме (Holstege et al., 1998), кроме того было известно, что уровень экспрессии генов дрожжей коррелирует с адаптацией белок-кодирующей последовательности по частотам синонимических кодонов (codon adaptation index (CAI), Sharp & Li, 1987). Был проведен компьютерный анализ взаимосвязей между контекстными характеристиками некодирующих районов генов дрожжей (5'-НТП, базального промотора, З'-НТП) и параметрами, отражающими уровень экспрессии гена на разных стадиях (количество мРНК, CAI, вес сигналов инициации и терминации трансляции). Оказалось, что помимо закономерностей, найденных для млекопитающих, существуют выраженные взаимосвязи между базовыми параметрами нуклеотидных последовательностей (частоты нуклеотидов, индексы самокомплементарности, отклонения в частотах некоторых динуклеотидов (Obs/Exp)) и уровнем экспрессии, что говорит о высоком уровне адаптации функциональных районов высокоэкспрессирующихся генов у дрожжей (табл. 2).

Таблица 2. Коэффициенты корреляций* между параметрами экспрессии

генов дрожжей (уровнем транскрипции тКЫАц, индексом адаптации кодонов

САГ) и некоторыми характеристиками 5'-НТП и базального промотора.

5'-НТП Промотор 5'-НТП промотор

CAI mRNAq CAI mRNAq CAI mRNAq CAI mRNAq

А 0.383 0.221 -0.333 -0.273 АА -0.04 0.03 0.243 0.14

G -0.503 -0.302 -0.323 -0.191 AG 0.05 0.231 -0.06 0.02

С 0.211 0.16 0.05 0.08 GG -0.383 -0.302 0.301 0.12

Т -0.16 -0.12 0.463 0.333 CG 0.151 0.191 0.03 0.01

IfG.Q 0.383 0.241 - - TG -0.182 -0.202 -0.06 -0.00

IfA.T) 0.21' 0.16 - - ТС 0.06 0.01 0.183 0.14'

♦значимые коэффициенты корреляции (р<0.05) выделены жирным шрифтом: ', р<0.05;2, р<0.01;3, р<0.001;

Эти корреляции устойчивы: например, содержание А в 5'-НТП позитивно коррелирует и с CAI, и с количеством мРНК в клетке. Можно видеть, что даже граничащие районы гена (базальный промотор и 5'-НТП) существенно отличаются по характеристикам, коррелирующим с уровнем экспрессии (табл. 2,

табл. 3), причем эти различия касаются и отклонений в содержании определенных динуклеотидов. Пока понятен биологический смысл только некоторых взаимосвязей (например, дисбаланс в содержании комплементарных нуклеотидов), остальные нуждаются в дальнейшем изучении.

Таблица 3

Характеристи ки функциональных районов высоко-экспрессирующихся генов дрожжей

С нашей точки зрения, тонкая настройка некоторых контекстных параметров некодирующих районов может быть связана с тем, что они могут выступать в качестве слабых сигналов. Например, динуклеотид UG в 5'-НТП может комплементарно взаимодействовать с антикодоном мет-тРНК в процессе линейного сканирования и несколько замедлять движение 40S субъединицы рибосомы, но этот эффект будет заметен только в том случае, если интенсивность трансляции достаточно велика.

Различия между мРНК генов высокого и низкого уровней экспрессии могли объясняться не только оптимизацией структуры 5'-НТП мРНК высокоэкспрессирующихся генов, но и целенаправленным снижением эффективности трансляции мРНК низкоэкспрессирующихся генов. Проведенный нами дополнительный анализ AUG-содержащих 5'-НТП эукариот показал, что в этой группе нуклеотидных последовательностей существует негативная корреляция между весом стартового кодона, размером 5'-НТП и числом uAUG, то есть некоторые лидерные последовательности характеризуются склонностью содержать несколько негативных параметров одновременно (Rogozin et al., 2001). Это говорит о возможности формирования в ходе эволюции группы мРНК, характеристики 5'-НТП которых специально адаптированы для поддержания трансляционной активности на низком уровне. В работе была сделана оценка возможности использования параметров 5'-НТП для предсказания эффективности трансляции мРНК. Для этого были собраны выборки 5'-НТП из кДНК генов высокого и низкого уровней экспрессии млекопитающих и растений (EMBL reí. 52; кДНК двудольных и однодольных растений взяты раздельно, т.к. частоты нуклеотидов у них сильно различаются)

Параметр 5'-НТП Промотор З'-НТП

Повышенное содержание A, I(0,C)> I(A,U) AG, CG и GG, АА, ТС и, I(G,C)

Сниженное содержание G GG, UG A, G GC, АС, UU G

и определен набор параметров, достоверно различающихся между контрастными выборками. Были выявлены наборы дискриминирующих параметров 5'-НТП для мРНК млекопитающих, двудольных и однодольных растений (46, 27 и 20 параметров, соответственно) (Kochetov et al., 1999). Для предсказания был использован подход, предложенный М.П. Пономаренко и Н.А. Колчановым (Ponomarenko et al., 1998) и основанный на теории принятия решений (Fishburn, 1970). Средние значения параметра, характерные для Выборок High и Low, были приняты равными +1 и -1, соответственно. Для нуклеотидной последовательности, эффективность трансляции которой нужно было предсказать, вычислялись значения дискриминирующих характеристик Fi (приравненные к -1 если они были ближе к средним значениям для выборки Low или к +1 в альтернативном случае). В общем виде при наличии N дискриминирующих характеристик скор F(seq) вычислялся по формуле:

Значения F(seq) варьируют между -1 (5'-НТП типичной низкоэкспрессирующейся мРНК) и +1 (5'-НТП типичной высокоэкспрессирующейся). Согласно теории принятия решений (при достаточно большом числе N) если F(seq)>0, то 5'-НТП соответствует высокоэкспрессирующимся мРНК, если меньше - то наоборот. Была предусмотрена возможность для пользователя изменять вес (Wi) дискриминирующей характеристики, что позволяло более гибко использовать преимущества данного подхода (Kochetov et al., 1999). Оценка метода на контрольных выборках 5'-НТП показала, что он достаточно точен: с параметрами по умолчанию для контрольной выборки высокоэкспрессирующихся генов 5'-НТП 78% мРНК двудольных, 78% мРНК млекопитающих и 84% мРНК однодольных растений были предсказаны правильно (F(seq)>0); для низкоэкспрессирующихся генов 5'-НТП 73% мРНК двудольных растений, 84% мРНК млекопитающих и 82% однодольных растений были предсказаны правильно (F(seq)<0). Считается, что это был первый метод такого рода (Davuluri et al., 2000).

2. Некоторые мРНК эукариот содержат элементы вторичной структуры, увеличивающие вероятность распознавания стартового кодона в субоптималыюм контексте. Ранее было показано, что стабильные шпильки усиливают трансляцию с AUG в слабом контексте, если они расположены в

£ Fi х Wi

YWi

позиции 17 или (менее выражено) в позиции 11 белок-кодирующей последовательности, и этот эффект пропадает, если начало шпильки перемещено в позицию 5 или 35 (Kozak, 1990). Было выдвинуто предположение, согласно которому вторичная структура, 5'-граница которой расположена на расстоянии 17 нуклеотидов, задерживает 40S субъединицу рибосомы в процессе линейного сканирования в позиции, оптимальной для комплементарного взаимодействия антикодона инициаторной метиониновой тРНК и стартового кодона трансляции. Однако эксперимент был выполнен в трансляционной системе in vitro и не было известно, работает ли этот механизм in vivo и - если работает - то насколько он распространен. В рамках настоящей работы было выдвинуто следующее предположение: если частота встречаемости стабильных локальных шпилек в позициях с 11 по 17 БКП выше в выборке мРНК с субоптимальным контекстом старта трансляции, то этот факт может свидетельствовать в пользу использования «компенсаторных» вторичных структур in vivo. Для оценки вторичной структуры РНК использовали критерий «вероятность участия нуклеотида в комплементарных взаимодействиях» (base pairing probability, ВРР, варьирует от 0 до 1) (McCaskill 1990), вычисленный с помощью Венского пакета (Hofacker, 2003). Этот подход основан на учете всех возможных стабильных локальных вторичных структур, на основе чего вычисляется вероятность участия нуклеотидов в позициях последовательности в комплементарных взаимодействиях, что дает хорошее приближение к экспериментальным данным (Kertesz et al., 2010). В таблице 4 приведена разность средних позиционных значений ВРР между выборками мРНК с субоптимальным и оптимальным контекстами AUG. Согласно полученным данным, единственный участок, в котором наблюдаются более высокие значения ВРР в выборке мРНК с субоптимальным контекстом AUG-кодона расположен между 13 и 17 позициями в мРНК человека и 14-17 позициями в мРНК мыши (был проанализирован сегмент мРНК между 6 и 90 нуклеотидами БКП) (Kochetov et al., 2007). Повышенная вероятность наличия вторичной структуры в этих позициях не зависела от содержания G+C (табл. 4). В целом, полученные данные показали, что некоторая часть выборки мРНК млекопитающих с субоптимальным контекстом стартового кодона содержит функциональные «компенсаторные» шпильки. По-видимому, число таких мРНК невелико, что может быть связано со

Таблица 4. Разность средних значений ВРР (ВРРУ-

ВРРК) и содержания в+С (ССу-ОСк,%) в позициях белок-кодирующей части (11 - 20) мРНК человека и мыши, характеризующихся субоптимальным (У, УппА1Ю) и оптимальным (Я, ЯппАиО) вариантами

контекста стартового кодона трансляции*

Н. sapiens М. musculus

Поз. BPPV-BPPK GCy-GCK BPPY-BPPK GCV-GCK

11 -0.008 2.14 -0.004 -1.47

12 -0.007 -3.79 0.005 2.46

13 0.0151 -0.41 -0.004 ■ -0.38

14 0.012" 1.65 0.020' 4.47

15 0.015J -1.99 0.018" -1.08

16 0.0141 -0.93 0.036J -1.48

17 0.0121 4.21 0.019' 7.53

18 -0.003 -3.23 -0.005 -5.46

19 0.004 0.59 0.010 1.31

20 0.005 0.68 -0.008 2.8

* Позиции БКП, в которых значения ВРР были

достоверно выше в выборке мРНК с субоптимальным

контекстом стартового кодона трансляции (согласно U-

тесту Манна-Уитни) выделены жирным шрифтом;

уровень достоверности: р < 0.05; р < 0.01; р <

0.001). Выборки мРНК выделены из БД ОепВапк (2006)

и содержали 22400 мРНК человека и 8933 мРНК мыши.

Рисунок 2. Результаты предсказания A UG hairpin

структурной лабильностью РНК и со сложностью поддержания сигнала такого типа в ходе эволюции.Анализ выборок мРНК S. cerevisiae показал

аналогичную зависимость между контекстом стартового кодона и распределением ВРР в начале белок-кодирую-щей части (Kochetov et al., 2003; в т.ч. и для не-AUG-стартовых кодонов (Kochetov et al., 2013)), что говорит об универсальном характере этого феномена для эукариот. Для предсказания таких структур был разработан ресурс AUG_hairpin (http://gibk26.bio.kvutech.ac.jp/aug hairpin/; на рис. 2 приведен пример предсказания «компенсаторной» шпильки). Полученные нами данные о роли вторичной структуры РНК в структуре сигнала инициации трансляции были подтверждены в других работах (McGuire & Galagan, 2008;

Robbins-Pianka et al., 2010; Kertesz et al., 2010; Lee et al., 2012 и др.), а также были использованы для выявления тонкой структуры сигналов инициации трансляции, содержащих несколько стартовых кодонов, в том числе и неканонических (Shinohara et al., 2008; Zu et al., 2011; Coldwell et al., 2012; Juszczak et al., 2012; Lee et al., 2012).

3. Физико-химические характеристики триплета AUG могли

способствовать его выбору в качестве сайта инициации трансляции.

Причины выбора на ранних этапах эволюции тех или иных комбинаций нуклеотидов в качестве сигналов остаются под вопросом; в частности, это касается сайтов инициации и терминации трансляции. При изучении белков активно используется параметр accessible source area (или solvent accessibility), отражающий доступность участка в трехмерной структуре макромолекулы для взаимодействия с другими молекулами. В рамках настоящей работы (совместно с группой проф. S. Ahmad) были проанализированы рентгеноструктурные характеристики РНК-белковых комплексов из БД PDB (Berman et al., 2000; выборка была сделана в августе 2009 года). Значение ASA было вычислено с помощью программы N ACCESS (Hubbard & Thornton, 1993). Величина ASA была вычислена для каждого нуклеотида (all-atom-value), для триплетов вычисляли среднее значение ASA для каждой из 64 комбинаций, считая нуклеотидную последовательность РНК состоящей из набора перекрывающихся триплетов. Анализ средних значений ASA для нуклеотидов в составе РНК показал, что для каждого нуклеотида распределения близки к нормальным (среднее значение близко к 180 А2), то есть различия недостаточно выражены для того, чтобы нести какую-то функциональную нагрузку (Singh et al., 2010). Однако, контекст (соседство нуклеотидов друг с другом) мог влиять на их доступность для молекул растворителя в силу стерических взаимодействий. Оказалось, что существует значительная разница в средних значениях ASA для разных триплетов (рис. 3) (Singh et al., 2010).

— WO Ь wo

3 150 _ Г

Рисунок 3. Средние значения параметра ASA для триплетов в составе РНК.

Разница между наиболее контрастными по средней величине ASA триплетами достаточно велика (~60 А2, среднеквадратичное отклонение ~53 А2). То есть, влияние контекста весьма велико и доступность для внешних взаимодействий комбинации нуклеотидов (триплета) не равна сумме значений ASA отдельных нуклеотидов, составляющих этот триплет. Что можно отметить из полученных данных (рис. 3): стартовый кодон трансляции AUG характеризуется высоким

- 4- 11' II 1 11 111 i 1 [ 1 I 1 1 1 ! 1 ! ! 111111! 1111

1 Hi II 1 'I 111 i Illlllllll 1! 1111 tr ГПМ

значением ASA (5-ое по величине среди 64 комбинаций); это же относится к стоп-кодону UGA, который характеризуется наиболее высоким значением ASA. Следует отметить, что UGA является самым распространенным стоп-кодоном у многих организмов и эффективность его работы часто регулируется (в сигналах терминации трансляции, для которых характерен readthrough и синтез удлиненных с С-конца изоформ белков, чаще всего присутствует именно UGA). Таким образом, некоторые «служебные» триплеты (AUG, UGA) характеризуются высоким потенциалом взаимодействия с другими макромолекулами, что могло служить одной из причин выбора именно этих комбинаций нуклеотидов на ранних этапах эволюции живзни. 4. Взаимосвязь между N-концевым участком белка и эффективностью инициации трансляции. Нуклеотидный контекст стартового кодона трансляции в мРНК млекопитающих (GCCGCCRCCAUGG) был определен по отклонениям в позиционных частотах нуклеотидов от средних по соответствующему району гена, что было потом подтверждено в экспериментах in vitro с анализом влияния точечных мутаций в некоторых из этих позиций на эффективность распознавания AUG (Kozak, 1986; 1989). Функции 5'-НТП главным образом связаны с инициацией трансляции, поэтому наблюдаемые девиации в позиционных частотах нуклеотидов в этом участке в первую очередь соотносили именно с процессом распознавания стартового кодона. С другой стороны, нуклеотид в позиции +4 относится к БКП (это первый нуклеотид второго кодона), поэтому отклонения в частотах нуклеотидов здесь могут быть связаны и с другими причинами. В эукариотических белках N-концевой метионин часто отрезается, причем эффективность этого процесса зависит от типа аминокислотного остатка во второй позиции белка; также известно, что при замене аминокислоты в этой позиции могут меняться стабильность белка и некоторые N-концевые посттрансляционные модификации (Varshavsky, 1996; Farazi et al., 2001; Harkins et al., 2005). Поэтому в литературе были представлены различные точки зрения на функциональную значимость З'-части контекста стартового кодона: согласно первой, нуклеотиды в позиции +4 (Kozak, 1997) или позициях +4 и +5 (Grunert & Jackson, 1994; Boeck and Kolakofsky, 1994; Niimura et al., 2003; Nakagawa et al., 2008) влияют на эффективность распознавания стартового кодона трансляции; согласно второй точке зрения, роль нуклеотида в позиции +4 связана именно с типом аминокислотного остатка во второй позиции

белка, но не с инициацией трансляции (Harkins et al., 2005; Xia, 2007). Таким образом, этот вопрос оставался дискуссионным.

В рамках настоящей работы была сформулирована следующая гипотеза: если нуклеотид в позиции +4 важен для инициации трансляции, то должна существовать взаимосвязь между ним и частью контекста, расположенной в некодирующем районе (5'-НТП). Согласно этому предположению, выборки с оптимальным (RnnAUG, R = А или G) и субоптимальным (YnnAUG, Y = U или С) вариантами контекста AUG должны отличаться по частоте встречаемости нуклеотидов в позиции +4 в том случае, если эта позиция влияет на эффективность инициации трансляции. Результат анализа выборки мРНК человека (21154 н.п., EMBL 2009) оказался неожиданным: было найдено, что выборки с оптимальным и субоптимальным контекстами стартового кодона (RnnAUG против YnnAUG) не отличаются по частоте G в позиции +4 (табл. 5, столбец R'3-Y"3). Дальнейший анализ показал, что существуют различия между мРНК с контекстами стартового кодона GnnAUG и AnnAUG. Было обнаружено следующее:

Таблица 5. Разность средних частот нуклеотидов в позиции +4 в выборках мРНК Н. sapiens с пурином (R = А или G), аденином, гуанином или пиримидином (Y = С или U) в -3 позиции контекста стартового кодона*

AUGN, поз.+4 R-Y A -Y G -Y A -G

AUGA -0.005 0.015 -0.029J 0.043J

AUGG 0.013 -0.0221 0.0553 -0.0773

AUGC -0.031J -0.0323 -0.0303 -0.001

AUGU 0.0233 0.039J 0.004 0.035J

♦например, для АиОА в ячейке Я^-У""1 приведена разность средней частоты аденина в позиции +4 в выборках мРНК с Яш А ив и УппЛиО. Уровень

значимости (Ц-тест) ', р <0,05; 2, р <0,01;3, р <0,001_

(а) Выборки мРНК с вариантом контекста ОппАиО характеризуются

статистически достоверно более высоким содержанием О в положении +4 в сравнении с выборками с другими сайтами инициации (АппАиС и УппАив). По-видимому, считающийся оптимальным контекстом стартового кодона трансляции RnnAUG на самом деле представляет собой комбинацию из двух вариантов: ОппАиСС и АппАиОп.

(б) Найдено, что существует статистически достоверная зависимость между нуклеотидом в позиции -3 (то есть, в 5'-НТП) и предпочтительной

встречаемостью некоторых аминокислотных остатков на N-конце. Оказалось (табл. 6), что во второй позиции белков, кодируемых мРНК с вариантом контекста AnnAUG, увеличена частота только одной аминокислоты - серина. В то же время белки млекопитающих, кодируемые мРНК с вариантом контекста GnnAUG, достоверно чаще содержат во второй позиции аминокислоты Ala, Gly (кодоны которых начинаются с G) и Ser.

Таблица 6. Разность средних частот аминокислотных остатков во 2-ой позиции белков, кодируемых выборками мРНК II sapiens с A, G или Y в

позиции -3 контекста стартового кодона (A-3, G"3, Y"3)*

поз. 2 а.п. A -Y G -Y поз. 2 а.п. A -Y G -Y

Ala 0.014 0.0463 Arg -0.0091 0.000

Ser 0.0573 0.0273 Val 0.007 -0.007

Glu -О.ОЗО3 -0.005 Met -0.0133 -0.0113

Gly 0.003 0.0243 Phe 0.004 -0.001

Asp -0.0173 -0.003 Gin -0.004 -0.005

Trp 0.002 0.003 Leu -0.0203 —0.0193

Pro 0.000 -0.003 Cys -0.0062 -0.0093

Asn 0.0102 -0.001 His -0.005¿ -0.0093

Thr 0.006 -0.002 lie -0.003 -0.0093

Lys 0.0081 -0.0102 Tyr -0.0052 -0.006-1

♦например, для Ser в ячейке A"3-Y"3 приведена разность средних частот остатков

серина в позиции 2 белков, кодируемых выборками мРНК с аденином или пиримидином в позиции -3 (RnnAUG - YnnAUG). Уровень значимости ([/-тест) ',

р <0,05; 2, р <0,01; 3, р <0,001_

Для того, чтобы понять, чем обусловлены наблюдаемые закономерности, был

сделан анализ частот встречаемости синонимических кодонов во второй позиции

БКП для аминокислотных остатков, частоты которых зависели от контекста

стартового кодона (табл. 6: Ser, Ala, Gly). Оказалось, что в мРНК с вариантом

контекста GnnAUG увеличена встречаемость некоторых из синонимических

кодонов Ala и Gly - что может говорить о функциональной значимости гуанина

в позиции +4 БКП (возможно в комбинациях с нуклеотидами в позициях +5,+6),

но не отвергает гипотезу о важности собственно аминокислотного остатка во

второй позиции полипептида. С другой стороны, в мРНК с вариантом контекста

AnnAUG во второй позиции БКП увеличена встречаемость всех

синонимических кодонов Ser, что определенно говорит о значимости именно

аминокислоты - тем более, что у серина шесть синонимических кодонов с

различными нуклеотидами в позиции +4 (табл. 7). Таким образом, в рамках

работы была уточнена значимость позиций контекста стартового кодона

трансляции у млекопитающих: найдено два варианта оптимального контекста (АппАивп, СппАивС) и обнаружена взаимосвязь между вариантом контекста стартового кодона АппАЦС и присутствием серина во второй позиции кодируемых такими мРНК полипептидов. Можно допустить, что для мРНК со стартовым кодоном трансляции в контексте АппАив конформационные особенности РНК-белкового комплекса способствуют более эффективному формированию первой пептидной связи МеГ-йег, что может быть значимо для генов высокого уровня экспрессии.

Таблица 7. Различия между средними частотами синонимических кодонов во

второй позиции БКП мРНК Н.йаргет с аденином, гуанином или пиримидином

в -3 положении контекста стартового кодона (А", G", Y )*

а.о. кодон A-Y G-Y A"J-G-J a.o. кодон A°-Y"J GJ-YJ

Ala GCG 0.016J 0.028J -0.012" Gly GGA 0.000 0.001 0.000

Ala GCU -0.003 -0.003 0.000 Ser UCG 0.016J 0.014J 0.002

Ala GCA 0.005 0.002 0.003 Ser UCU 0.015J 0.003 0.011J

Ala GCC -0.005 0.018J -0.024J Ser UCA 0.005' -0.001 0.006J

Gly GGG 0.003 0.012J -0.009J Ser UCC 0.01 0.006' 0.005'

Gly GGC 0.002 0.016J -0.014J Ser AGU 0.005' 0.002 0.002

Gly GGU -0.002 -0.0041 0.002 Ser AGC 0.005' 0.003 0.002

•"например, для ОСО в ячейке А"3-У° приведена разность средних частот этого кодона в позиции 2 БКП в выборках мРНК с аденином или пиримидином в позиции -3 ^ппА1Ю - УппА1ГО). Уровень значимости (¿/-тест) ', р <0,05; 2, р <0,01; \р <0,001

5. мРНК эукариот часто содержат альтернативные сайты инициации трансляции. Считалось (и эта точка зрения остается достаточно распространенной), что в эукариотических мРНК расположена одна рамка считывания и, соответственно, один сайт инициации трансляции. Однако, оценка контекстных характеристик мРНК эукариот показала, что значительная часть мРНК содержит триплеты AUG в составе 5'-НТП (uAUG) (Kochetov et al., 1998; Rogozin et al., 2001; Кочетов и др., 2002a). Вопрос о функциональных характеристиках большинства uORF оставался открытым: согласно модели «линейного сканирования» (Kozak, 1987) рибосомы могут распознавать такие uAUG как старты трансляции, то есть кодируемый uORF белок может синтезироваться и выполнять какие-либо функции (рис. 4). Кроме того, в банках данных нуклеотидных последовательностей содержалось значительное количество мРНК, у которых стартовый кодон трансляции основной рамки считывания расположен в субоптимальном контексте, то есть, часть 40S

субъединиц рибосом могла не распознавать такие стартовые кодоны и инициировать трансляцию на нижерасположенных AUG с помощью механизма «сканирование с подтеканием» (dORF, рис. 4). Однако, экспериментальных данных было мало и они часто противоречили друг другу, поэтому эти представления нё использовались при предсказании структур генов.

Рисунок 4. В мРНК могут

uORFl U0RF2

-1 -► располагаться альтернатив_ ^ ные рамки считывания,

_ начинающиеся с лидерных

dORFl -► dORF2 AUG (uORF) или со

стартовых кодонов внутри БКП (dORF), которые могут кодировать либо новые пептиды (uORFl, dORFl), либо N-концевые изоформы белка (uORF2, dORF2).

В диссертационной работе была проверена гипотеза о том, что мРНК с субоптимальным контекстом стартового кодона в начале белок-кодирующей последовательности содержат «запасные» сайты инициации, с которых может синтезироваться укороченная с N-конца изоформа белка. Функциональная значимость таких альтернативных стартовых кодонов может заключаться либо в увеличении общего уровня синтеза данного белка (известный вариант и его потенциальная N-концевая изоформа изофункциональны), либо в расширении кодирующего потенциала мРНК (N-концевая изоформа функционально отличается). Для проверки этого предположения из БД EMBL (2004 г.) были выделены выборки кДНК Arabidopsis thaliana (12632), Homo sapiens (29642), Mus musculus (17298), Aves (1506), Liliopsida (3423), Arthropoda (5131). Были использованы два варианта классификации контекста стартового кодона на оптимальный и субоптимальный: (а) базовый - по нуклеотиду, расположенному в наиболее значимой позиции -3 (Rnnaug = оптимальному, Ynnaug = субоптимальному контексту; R = А или G, Y = С или U) для всех таксонов (Kozak, 1986); (б) расширенный - оптимальному контексту соответствует консенсусная последовательность, субоптимальному - антиконсенсус: Arabidopsis thaliana: RAAaugG (консенсус), YnotAnotAaugnotG (антиконсенсус); Arthropoda'. RAAaug (консенсус), YnotAnotAaug (антиконсенсус); Homo sapiens, Mus musculus, Aves, Liliopsida: RCCaugG (консенсус), YnotCnotCaugnotG (антиконсенсус). В табл. 8 приведены средние частоты кодонов AUG в начале БКП (с 3 по 9 кодон, они соответствуют остаткам метионина в соответствующих

позициях белков). Можно видеть, что в мРНК с оптимальным контекстом стартового кодона частота таких триплетов не отличается от ожидаемой, в то время как при субоптимальном контексте они встречаются намного чаще и эти различия увеличиваются при использовании расширенных вариантов контекста. Характерно, что повышенная частота триплетов AUG в мРНК с субоптимальным контекстом стартового кодона трансляции имела место только в начале БКП и не наблюдалась в других рамках считывания (рис. 5). Полученные результаты (Kochetov, 2005; Kochetov et al., 2003; 2005) однозначно свидетельствовали в пользу предположения о высокой частоте встречаемости альтернативных сайтов инициации трансляции.

Таблица 8. Средняя частота кодонов AUG в позициях 3 — 9 эукариотических мРНК, характеризующихся различными вариантами контекста стартового

кодона (оптимальный - Opt, субоптимальный - Sub)_

Организм Базовый контекст (поз. -3) Расширенный контекст AUGE"

Sub Opt Дост. разл." Sub Opt Дост. разл.

Н. sapiens 0.025 0.016 2-9 0.031 0.012 2-9 0.017

М. musculus 0.029 0.016 2-9 0.038 0.015 2-8 0.017

Aves 0.042 0.019 2-4 0.063 0.020 2-4,6,7 0.019

Arthropoda 0.038 0.019 2-5,9 0.042 0.019 3-6,9 0.018

A. thaliana 0.022 0.023 - 0.031 0.022 2,3 0.015

Liliopsida 0.027 0.021 3,5 0.041 0.017 2, 3,9 0.016

H. sapiens0Uj 0.018 0.017 4 0.019 0.012 8 0.028d

aAUGE - ожидаемая частота AUG, в качестве которой использована средняя частота триплетов AUG в удаленном участке белок-кодирующей последовательности (с 30 по 40 кодон); 'Позиции, в которых частота триплетов AUG достоверно различалась (t-тест, р < 0.05); "Средняя частота триплетов AUG в рамке +1 (NAU GNN) в участке с 3 по 9 кодон БКП; ■"Средняя частота AUG, расположенных в рамке +1 (NAU GNN) в участке между 30 и 40 триплетами у выборок мРНК Opt и Sub не различалась (0.28 и 0.26, соответственно).

Рисунок 5.

Средние частоты триплетов AUG в начале БКП мРНК генов мыши (расположены либо в рамке считывания БКП (in-frame), либо в рамке +1 (out-of-frame)). Opt -AUG в оптимальном контексте (RnnAUG), Sub - в субоптимальном (YnnAUG).

in-frame (op!) 1 m-frame (sub) -out-of-frame (opt) .........out-of-frame (sub)

2 3 4 5 6 7 8 3 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Позиции белок-кодирующей последовательности, кодоны

В свою очередь, это означало, что:

(а) для адекватной оценки эффективности инициации трансляции мРНК с аннотированным стартовым кодоном в субоптимальном контексте следует учитывать возможность дополнительного синтеза изофункциональных N-концевых изоформ. Например, 903 мРНК человека из 5122 мРНК с вариантом контекста YnnAUG содержат как минимум один альтернативный стартовый кодон на участке между 2 и 9 кодонами БКП;

(б) кодирующий потенциал мРНК практически всех эукариот (табл. 8) сильно недооценен, поскольку не принимается в расчет возможность трансляции альтернативных ORF. Для оценки вклада такой альтернативной трансляции был проведен детальный анализ мРНК генов человека, выделенных из БД GenBank (2004 г., 27616 н.п.; характеристики выборки: 44% кДНК содержали uAUG, было выделено 12693 uORF из 8050 мРНК, средний размер составил 69 н; 35% uORF перекрывались с БКП, из них 9% uORF представляли собой 5'-концевые добавки к аннотированной БКП, то есть в этих случаях uAUG были расположены в той же рамке считывания, что и БКП, и между ними не было нонсенс-кодонов). Кроме этого, 4591 мРНК содержали стартовый кодон трансляции в субоптимальном контексте. Всего для анализа было выделено две выборки: 885 мРНК человека, потенциально кодирующие удлиненные с N-конца изоформы белков с альтернативного стартового кодона в составе 5'-НТП (uORF2, рис. 4), и 3327 мРНК, содержащие стартовый кодон в субоптимальном контексте и потенциально кодирующие укороченные с N-конца изоформы белков (dORF2, рис.4) (размером больше 100 а.о.). Был проведен сравнительный анализ предсказанной субклеточной локализации потенциальных N-концевых изоформ белков и их аннотированных в GenBank вариантов (был использован метод TargetP (Emanuelsson et al., 2000), позволяющий предсказать наличие на N-конце белка сигнала транспорта в митохондрии (МТР), сигнального пептида (SP) или варианта «другая локализация»). Результаты предсказания приведены в табл. 9, 10. Можно видеть, что 281 из 885 изоформ, удлиненных с N-конца, локализованы в другом компартменте, причем они значительно чаще являются секреторными. Такое различие подтверждает достоверность (неслучайность) результатов, так как использование удлиненных с N-конца изоформ белков для их доставки в другой компартмент биологически осмысленно.

В свою очередь, около 30% укороченных N-концевых изоформ локализованы в

компартментах, отличающихся от аннотированных в СепВапк вариантов белков (табл. 10). Как и следовало ожидать, в данном случае аннотированные варианты белков чаще содержали МТР или 8Р, что также хорошо соотносится с биологической значимостью Ы-концевого участка молекулы. Интересно, что около 10% >1-укороченных изоформ были предсказаны как содержащие МТР или 8Р, тогда как их полноразмерные варианты были предсказаны как «локализованные в другом компартменте». Согласно этой оценке, около 3% пула мРНК человека содержали иА1ГС, с которых могли дополнительно транслироваться удлиненные с И-конца изоформы аннотированных в банке данных белков. При этом, около 90% таких иА1Ю были расположены в субоптимальном контексте, что дает возможность одновременно синтезировать как удлиненную, так и укороченную изоформы белка с помощью механизма «сканирование с подтеканием» (Когак, 2005).

Таблица 9. Субклеточная локализация белков человека и их потенциальных

изоформ, удлиненных с Ы-конца (%) (КосЬе1оу е1 а1., 2005)

Аннотированный вариант 1\1-концевая изоформа 39% Ы-удлиненных и

— фракция, % МТР ¡5Р Другая 28% аннотированных

- вариантов белков

МТР 9 5 13

содержат МТР или

ЭР 19 3 11 5 8Р, 16% К-Другая 72 15 4 53 удлиненных и Всего 100 23 16 61 аннотированных бел- ков характеризовались одинаковой предска-занной локализацией, и 4% Ы-удлиненных и аннотированных изоформ белков характеризовались изменением локализации (от МТР-содержащего к БР-содержащему белку или наоборот).

С другой стороны, около 12% кДНК человека характеризовались субоптимальным контекстом стартового кодона трансляции и с них также могла считываться Ы-укороченная изоформа белка.

В целом, около 15% мРНК человека в проанализированной выборке могут дополнительно кодировать Ы-концевые изоформы белков за счет использования альтернативных стартовых кодонов и около 5% мРНК могут дополнительно кодировать изоформы белков, локализованные в разных компартментах (КосЬеШу е! а1., 2005). Для оценки вклада альтернативной трансляции в синтез Ы-концевых изоформ белков у организмов другой таксономической

Фракция, % МТР SP Другая

МТР 13 3 1 9

SP 17 1 7 9

Другая 70 5 5 60

Всего 100 9 13 78

принадлежности был проведен анализ мРНК дрожжей (Kochetov et al., 2003) и арабидопсиса (Kochetov & Sarai, 2004).

Таблица 10. Субклеточная локализация белков человека и их потенциальных изоформ, укороченных с N-конца (%) (Kochetov et al., 2005) Аннотированный вариант N-укороченная изоформа 18% аннотированных изоформ перестали быть секретируемыми (то есть, предсказание изменилось с МТР-или SP-содержащих на "Другая локализация"), 10% N-укороченных изоформ сохранили локализацию своих полноразмерных (аннотированных) вариантов (МТР или SP), 10% N-укороченных вариантов приобрели сигнал de novo (то есть, предсказание изменилось с "Другая локализация" на МТР- или SP-содержащие) и 2% N-укороченных изоформ изменили вариант локализации (от МТР к SP- варианту белка или наоборот). ^

В этих случаях проводилась только оценка возможности дополнительного синтеза N-укороченных изоформ белков, которые могли синтезироваться с помощью механизма «сканирование с подтеканием». В выборке из 9531 мРНК арабидопсиса 1819 мРНК содержали стартовый кодон трансляции в субоптимальном контексте (YnnAUG). Субклеточную локализацию аннотированных белков и их потенциальных изоформ, укороченных с N-конца, предсказывали с помощью программы TargetP (в данном случае предсказывали локализации белка, связанные с наличием на N-конце сигнального пептида для транспорта в митохондрии (МТР), хлоропласты (СТР), мембранной или экстраклеточной локализации (SP), или ни одной из них («Другая локализация»)). Можно видеть (табл. 11), что N-укороченные изоформы белков часто теряют сигнальный пептид (24.4%), чего можно было ожидать вследствие его N-концевого расположения. Интересно, что 12.2% N-укороченных изоформ белков предсказаны как секреторные (содержащие МТР, СТР, или SP), тогда как в полноразмерных вариантах наличие этих сигнальных пептидов не было предсказано. 5.7% белков характеризовались изменением предсказанного компартмента (изменение типа сигнала внутри группы МТР, СТР, SP). 13.5% укороченных с N-конца изоформ белков сохранили сигнальный пептид. В целом, около 4% генов в проанализированной выборке могли дополнительно

кодировать укороченные с N-конца изоформы белков, характеризовавшиеся иной субклеточной локализацией (Kochetov & Sarai, 2004).

Таблица 11. Предсказанная субклеточная локализация белков арабидопсиса (%), трансляция которых начинается со стартового кодона в субоптимальном контексте (YnnAUG) и их укороченных с N-конца изоформ, трансляция которых инициируется с нижерасположенного кодона AUG (Kochetov & Sarai, 2004).

Полноразмерные Укороченные с N-конца

Локализация Фракция (%) МТР СТР SP Другая

МТР 11 2 0.9 1 7.1

СТР 20.3 1.5 6.8 0.5 11.5

SP 12.3 1.2 0.6 4.7 5.8

Другая 56.4 5.4 3.2 3.6 44.2

Всего 100 10.1 11.5 9.8 68.6

Близкие по смыслу результаты были получены при анализе выборки генов S. cerevisiae (Kochetov et al., 2003), что говорит об универсальном характере наблюдаемого феномена. Позднее эти оценки были подтверждены в высокопроизводительных экспериментах по картированию позиций стартовых кодонов (Lee et al., 2012; Fournier et al., 2012; Fritsch et al., 2012; Kazak et al., 2012) и использовались при предсказании структуры ряда генов эукариот.

6. Реинициация трансляции и ее вклад в кодирующий потенциал эукариотических мРНК.

Если в составе 5'-НТП мРНК расположена небольшая открытая рамка считывания (uORF), то после ее трансляции некоторые рибосомы сохраняют способность к повторной инициации (реинициации). Считается, что у эукариот эффективность реинициации невелика и зависит от размера uORF и размера спейсера (участка мРНК между стоп-кодоном uORF и следующим стартом) (Luukkonen et al., 1995; Kozak, 2001; 2005; Poyry et al., 2004; Jackson et al., 2010). По-видимому, размер uORF имеет значение потому, что за время трансляции небольшой рамки считывания от рибосомы не успевают отделиться некоторые белки, присутствие которых позволяет 40S субъединице остаться связанной с мРНК и продолжить сканирование в 3'-направлении. В процессе сканирования происходит до-сборка инициационного комплекса (связывание с eIF2-met-tRNAi-ATP) и восстановление способности распознавать триплеты AUG. Предполагается, что такое восстановление требует определенного времени (зависящего от активности eIF2a), поэтому если проксимальный кодон AUG расположен слишком близко к стоп-кодону uORF, то 40S субъединицы рибосом

не распознают его и смогут инициировать трансляцию только на более удаленных сайтах. Считалось, что эффективность реинициации в клетках эукариот мала и синтез альтернативных изоформ белков с помощью этого механизма - редкое явление, связанное со стресс-специфическим контролем экспрессии нескольких регуляторных генов (GCN4, ATF4, ATF5 и т.д.) (Vattem & Wek, 2004; Zhou et al., 2008; Jackson et al., 2010).

В рамках диссертационной работы была сделана оценка потенциального вклада механизма реинициации трансляции в синтез N-концевых изоформ белков на примере мРНК человека. Для этого были выделены мРНК, структура которых должна была способствовать функционально значимой реинициации трансляции (рис. 6): мРНК должны были содержать один uAUG и uORF (размером от 3 до 30 кодонов) должна была перекрываться с аннотированной белок-кодирующей последовательностью. В качестве альтернативного стартового кодона рассматривался AUG, ближайший к стоп-кодону uORF, с которого могла начинаться либо укороченная с N-конца изоформа белка (nextORF2), либо не связанная с ним аминокислотная последовательность (обычно небольшая, nextORFl). В рамках работы была исследована взаимосвязь между uORF, nextORF, характеристиками спейсера и контекстов соответствующих AUG (Kochetov et al., 2008).

uORF nextORF2

AUG next0RF1 CDS

Рисунок 6. Организация мРНК человека, отобранных для изучения роли реинициации трансляции в синтезе N-концевых изоформ белков.

Для анализа была использована выборка кДНК человека (ЕМВЬ, 2007: 43% от 44416 полноразмерных кДНК содержали иАив, 7220 кДНК содержали одну иОШ7 и 754 (негомологичных) мРНК соответствовали рис. 6 и были далее использованы в работе). Найдено следующее: средний размер и01*Р составлял 52 ± 23 н.; средний размер спейсера между стоп-кодоном иОЯР и пех1АиО составлял 68 ± 77 н., что достаточно для реинициации трансляции (Когак, 2001). Можно было ожидать, что большинство иАий будут располагаться в субоптимальном контексте, что позволит рибосомам транслировать как иОЯР,

так и белок-кодирующую последовательность (за счет механизма «сканирование с подтеканием» (Kozak, 2005)). Однако, существенная часть uAUG расположена в оптимальном варианте контекста (RnnAUG = 49%, RnnAUGG = 14%). Таким образом, синтез белка на основной рамке считывания за счет механизма «сканирование с подтеканием» в половине случаев должен быть низкоэффективным, а в 14% случаев синтез известного варианта белка вообще не должен был происходить: практически все рибосомы в такой ситуации должны транслировать uORF (рис. 6). 297 мРНК (39% выборки) содержали nextORF2, соответствующую укороченной с N-конца изоформе белка. Согласно полученным данным, между размером uORF и контекстом nextAUG существует достоверная негативная корреляция, но только в случае nextORF2, кодирующих N-концевую изоформу белка (г = -0.16, р = 0.007; в случае nextORFl значения не достоверны). Другая зависимость была найдена между размером спейсера между uORF и контекстом nextAUG: показано, что положительная достоверная корреляция существует в том случае, если nextORF кодирует N-концевую изоформу аннотированного белка (rk = 0.075 р=0.05), в случае out-frame nextORFl значения недостоверны. По-видимому, эти закономерности могут отражать функциональную значимость некоторых N-концевых изоформ аннотированных белков и - соответственно - эволюционную оптимизацию структурных элементов мРНК, связанных с реинициацией трансляции: более короткая uORF, более протяженный спейсер и более оптимальный контекст nextAUG способствуют более эффективному синтезу таких изоформ (Luukkonen et al., 1995; Kozak, 2001; 2005; Jackson, 2010). 38% N-концевых изоформ белков характеризуются предсказанной субклеточной локализацией, отличной от их полноразмерных вариантов (табл. 12). Значительная часть сегментов полноразмерных белков, отсутствующих в N-концевых трансляционных изоформах, характеризуются сходством с паттернами ProSite (72 сегмента, в большинстве соответствуют сайтам посттрансляционной модификации белков). Трансляционная конфигурация мРНК человека (uORF-БКП-nextORF) была сходна у 82% мышиных гомологов и 79% мРНК и мыши, и крысы. 89 белков из 297 характеризуются терминами GO, связанными с "development", "regulation of biological processes" и "response to stimuli", то есть с регуляторными факторами. В целом, анализ мРНК человека показал, что

использование реинициации трансляции in vivo для синтеза N-концевых изоформ следует принимать во внимание (Kochetov et al., 2008).

Таблица 12. Субклеточная локализации белков человека (БКП) и их потенциальных изоформ укороченных с Ы-конца (%), синтезируемых за счет реинициации трансляции

*МТР, митохондриальный

секреторный пептид; БР, секреторный пептид.

БКП N-изоформа

Сигнал* Фракция МТР SP Другая

МТР 16 3 1 12

SP 20 1 6 13

Другая 64 8 3 53

Всего 100 12 10 78

7. Альтернативная терминация трансляции.

В диссертационной работе была также сделана оценка потенциального вклада альтернативной терминации трансляции в синтез С-концевых изоформ эукариотических белков. Была проверена гипотеза (предложенная Л.Л. Киселевым) о роли тандемов стоп-кодонов в качестве механизма, компенсирующего низкую эффективность сигнала терминации трансляции (т.н. readthrough - считывание малоэффективного стоп-кодона как смыслового, продолжение трансляции и терминация на нижерасположенном нонсенс-кодоне в той же рамке считывания). Компьютерный анализ показал, что у A. thaliana и О. sativa частота встречаемости «запасных» стоп-кодонов в начале З'-НТП повышена только в том случае, если в качестве терминатора трансляции использован UGA (в меньшей степени - UAG). Систематический анализ характеристик мРНК показал, что частота встречаемости нонсенс-кодонов в начале З'-НТП коррелирует с присутствием аминокислотного остатка глицина в С-концевой позиции белка (рис. 7). По-видимому, комбинация стоп-кодона UGA и глицина на С-конце белка затрудняет терминацию трансляции и такие мРНК могут быть склонны к синтезу С-концевых изоформ белков. Согласно нашей оценке, этот механизм может лежать в основе дополнительного синтеза 100-120 С-концевых изоформ белков за счет альтернативной терминации трансляции (Kochetov et al., 2011), некоторые из которых могут быть функционально значимы (такие случаи известны: например, Robinson & Cooley, 1997; Steneberg et al., 1998; Steneberg & Samakovlis, 2001; Namy et al., 2002; Dreher & Miller, 2006; Kaier et al., 2009). Таким образом, вклад альтернативной терминации

трансляции в кодирующий потенциал эукариотических мРНК выражен в значительно меньшей степени, чем вклад альтернативной инициации

Рисунок 7. Разность средних позиционных частот нонсенс-кодонов (в рамке БКП) в 15 проксимальных триплетах З'-НТП мРНК генов арабидопсиса, кодирующих белки либо с остатком глицина на С-конце, либо с остатком другой аминокислоты (Gly-nonGIy) (Kochetov et al., 2011).

В рамках диссертационной работы была расширена и детализирована схема организации сигнала инициации трансляции эукариотических мРНК. Найдено, что некоторые характеристики мРНК могут функционировать в качестве дополнительных элементов, модулирующих вероятность распознавания стартового кодона и эффективность инициации трансляции в целом. В качестве таких характеристик могут использоваться элементы вторичной структуры РНК («компенсаторные» шпильки), а также определенные комбинации нуклеотидов в позициях контекста AUG и аминокислотных остатков во второй позиции белка. Показано, что в структуре сигнала инициации трансляции с высокой частотой присутствуют альтернативные стартовые кодоны, что свидетельствует о существенно более высоком кодирующем потенциале эукариотических геномов, чем это полагали ранее. Сравнительный анализ показал, что вклад альтернативной инициации трансляции в протеом эукариот многократно выше, чем у альтернативной терминации трансляции.

ВЫВОДЫ

1. Выявлены характеристики нуклеотидных последовательностей 5'-НТП мРНК эукариотических генов, способствующие их функциональной активности в процессе инициации трансляции. Показано, что лидерные районы мРНК генов

трансляции.

| , UAA--«--UGA * UAG]

ЗАКЛЮЧЕНИЕ

высокого уровня экспрессии адаптированы для поддержания высокой трансляционной активности (небольшой размер, дисбаланс в содержании комплементарных нуклеотидов, оптимальный контекст стартового кодона, отсутствие (или слабый контекст) uAUG и т.п.). Разработан первый метод предсказания трансляционной активности мРНК растений и млекопитающих на основе анализа контекстных характеристик их 5'-НТП (Leader_RNA).

2. Показано, что в некоторых мРНК млекопитающих и дрожжей эффективность распознавания стартового кодона в субоптимальном контексте может усиливаться с помощью элементов вторичной структуры («компенсаторных шпилек»), расположенных в определенном участке белок-кодирующей последовательности. Разработан Интернет-ресурс (AUGhairpin), позволяющий предсказывать такие структуры.

3. Найдено, что в структуре молекул РНК доступность участков молекул для взаимодействия (accessible source area) контекстно-зависима, при этом высокими значениями этого параметра характеризуются триплеты AUG и UGA. Выдвинуто предположение о том, что физико-химические характеристики могли быть одной из причин выбора именно этих комбинаций нуклеотидов в качестве сайтов инициации и терминации трансляции на ранних этапах эволюции жизни.

4. Уточнены характеристики нуклеотидного контекста стартового кодона трансляции в эукариотических мРНК. Показано наличие устойчивых вариантов оптимального контекста (AnnAUGn, GnnAUGG), а также взаимосвязь между некоторыми вариантами нуклеотидного контекста и присутствием определенных аминокислотных остатков во второй позиции полипептида. По-видимому, такие комбинации влияют на эффективность формирования первой пептидной связи, что и определяет их функциональную значимость.

5. Обнаружено, что в структуре эукариотического сигнала инициации трансляции с высокой частотой (20% - 40% транскриптома у разных видов) содержатся альтернативные стартовые кодоны, с которых может начинаться дополнительный синтез N-концевых изоформ аннотированных белков или не связанных с ними пептидов. Согласно полученным данным, вклад этого механизма в кодирующий потенциал эукариотических генов и клеточный протеом в очень существенной степени недооценен. Предсказаны трансляционные изоформы белков дрожжей, растений и млекопитающих.

6. Показано, что контекстная организация некоторых мРНК растений может

способствовать терминации на альтернативных стоп-кодонах. Согласно полученным данным, вклад альтернативной терминации трансляции и дополнительного синтеза С-концевых изоформ белков в протеом намного меньше, чем при использовании сайтов альтернативной инициации трансляции.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ:

1. Кочетов А.В., Шумный В.К. Влияние структуры мРНК на процесс инициации трансляции в клетках растений. Усп. совр. биол. 1998. 118. 754-770.

2. Kochetov A.V., Ischenko I.V., Vorobiev D.G., Kel A.E., Babenko V.N., Kisselev L.L., Kolchanov N.A. Eukaryotic mRNAs encoding abundant and scarce proteins are statistically dissimilar in many structural features. FEBS Lett. 1998. 440. 351-355.

3. Кочетов A.B., Пилюгин M.B., Колпаков Ф.А., Бабенко В.Н., Колчанов Н.А., Шумный В.К. 5'-НТП мРНК генов растений: контекст стартового кодона трансляции. Цитол. генет. 1999. 33. 3-9.

4. Kochetov A.V., Ponomarenko М.Р., Frolov A.S., Kisselev L.L., Kolchanov N.A. Prediction of eukaryotic mRNA translational properties. Bioinformatics. 1999.15.704-712

5. Kolchanov N.A., Ponomarenko M.P., Kel A.E., Kondrakhin Ju.V., Frolov A.S., Kolpakov F.A., Goryachkovskaya T.N., Kel O.V., Ananko E.A., Ignatieva E.V., Podkolodnaya O.A., Stepanenko I.L., Merkulova T.I., Babenko V.V., Vorobiev D.V., Lavryushev S.V.,

■ Ponomarenko Yu.V., Kochetov A.V., Kolesov G.N., Podkolodny N.L., Milanesi L., Wingender E., Heinemeyer Т., Solovyev V., Overton G.C Genexpress 1.0: an WWW-oriented intergartor for the databases and computer systems for studying the eukaryotic gene expression. Bioinformatics. 1999. 15.669-686.

6. Пономаренко М.П., Пономаренко Ю.В., Фролов A.C., Кочетов А.В., Колпаков Ф.А., Колчанов Н.А., Подколодный H.J1. Электронная библиотека знаний для аннотации геномной ДНК. Электронные библиотеки. 1999.2. 3.

7. Rogozin I.B., Kochetov A.V., Kondrashov F.A., Koonin E.V., Milanezi L. Presence of ATG triplets in 5' untranslated regions of eukaryotic cDNAs correlates with a "weak" context of the start codon. Bioinformatics. 2001. 17. 890-900.

8. Кочетов A.B., Григорович Д.А., Титов И.И., Воробьев Д.Г., Сырник О.А., Вишневский О.В., Sarai А., Колчанов Н.А. Компьютерная система mRNA-FAST (mRNA: Function, Activity, STructure). Мол. биол. 2001. 35. 1039-1047.

9. Кочетов А.В., Сырник О.А., Рогозин И.Б., Глазко Г.В., Комарова М.Л., Шумный В.К. Контекстная организация 5'-нетранслируемых районов генов высших растений. Мол. биол. 2002. 36. 649-656.

10. Кочетов А.В., Sarai А., Воробьев Д.Г., Колчанов Н.А. Контекстная организация функциональных районов генов с высоким уровнем экспрессии у дрожжей. Мол. биол. 2002. 36. 1026-1034.

11. Кочетов А.В., Омельянчук Н.А., Игнатьева Е.В., Лихошвай В.А., Матушкин Ю.Г. Биоинформатика и трансгенез: создание организмов с новыми свойствами // Экол генет. 2003. 1. 67-74

12. Kochetov A.V., Pichueva A.G., Kondrakhin Yu.V., Titov S.E., Kolchanov N.A. The contextual features of higher plant mRNA 5'-untranslated regions as related to the

translation initiation mechanisms. Biophysics (Moscow). 2003 48 Suppl. 1 76-80.

13.Kochetov A.V., Kolchanov N.A., Sarai A. Interrelations between the efficiency of translation start site and other sequence features of yeast mRNAs. Mol. Genet. Genomics. 2003. 270. 5. 442-447.

14. Kochetov A.V., Sarai A. Translational polymorphism as a potential source of plant proteins variety in Arabidopsis thaliana. Bioinformatics. 2004. 20.445-447.

15.Pichueva A.G., Kochetov A.V., Milanesi L., Kondrakhin Yu.V., Kolchanov N.A. Correlations between sequence features of yeast genes functional regions and the level of expression. In: Bioinf. Genome Regulation & Structure. Ed. By N. Kolchanov and R. Hofestaedt, Kluwer Academic Publishers, Boston/Dordrecht/London, 2004, pp. 125-132.

16. Matushkin Yu.G., Likhoshvai V.A., Kochetov A.V. Local secondary structure may be a critical characteristic influencing translation of unicellular organisms mRNA. In: Bioinf. Genome Regulation & Structure. Ed. By N. Kolchanov and R. Hofestaedt, Kluwer Academic Publishers, Boston/Dordrecht/London, 2004, pp. 103-114.

17. Vishnevsky O.V., Avdeeva I.V., Kochetov A.V. Study of the specific contextual features of translation initiation and termination sites in Saccharomyces cerevisiae // In: Bioinf. Genome Regulation & Structure. Ed. By N. Kolchanov and R. Hofestaedt, Kluwer AcademicPublishers, Boston/Dordrecht/London, 2004, pp. 213-222.

18. Kochetov A.V. AUG codons at the beginning of protein coding sequences are frequent in eukaryotic mRNAs with a suboptimal start codon context. Bioinformatics. 2005. 21. 837840.

19. Kochetov A.V., Sarai A., Rogozin I.B., Shumny V.K., Kolchanov N.A. The role of alternative translation start sites in generation of human protein diversity. Mol. Genet. Genomics 2005.273.491-496.

20. Волкова O.A., Кочетов A.B., Титов C.E., Колчанов Н.А. Потенциальные открытые рамки считывания в 5'-нетранслируемых районах эукариотических мРНК. Биофизика. 2006. 51. 615-621.

21. Волкова О.А., Титов С.Е., Кочетов А.В. Взаимосвязь контекстной организации сигнала инициации трансляции и аминокислотной последовательности на N-конце белков эукариот. Биофизика. 2006. 51(7) 11-17.

22. Кочетов А.В. Альтернативные сайты инициации трансляции и их вклад в протеом эукариотических клеток. Мол. биол. 2006. 40. 788-795.

23. Kochetov A.V. Alternative coding potential of mammalian mRNAs. In: New Messenger RNA Research Communications. (Ed. Lee B. Kwang) Nova Science Publishers, Inc., 2007, Chapter 13, 191-201. (ISBN 978-1-60021-488-2)

24. Kochetov A.V., Palyanov A., Titov I.I., Grigorovich D., Sarai A., Kolchanov N.A. AUG_hairpin: prediction of a downstream secondary structure influencing the recognition of a translation start site. BMC Bioinformatics 2007, 8:318

25. Kochetov A.V., Ahmad S., Ivanisenko V., Volkova O.A., Kolchanov N.A., Sarai A. uORFs, reinitiation and alternative translation start sites in human mRNAs. FEBS Lett. 2008.582. 1293-1297.

26. Kochetov A.V. Alternative translation and hidden coding potential of eukaryotic mRNAs. BioEssays. 2008. 30. 683-691.

27. Volkova O.A., Kochetov A.V. Interrelations between the nucleotide context of human

start AUG codon, N-end amino acids of the encoded protein and initiation of translation. J. Biomol. Struct. Dynam. 2010. 27. 611-618.

28. Singh H., Andrabi M., Kahali В., Ghosh T.C., Miziguchi K., Kochetov A.V., Ahmad S. On nucleotide solvent accessibility in RNA structure. Gene. 2010. 463. 41-48.

29. Bazykin G.A., Kochetov A.V. Alternative translation start sites are conserved in eukaryotic genomes. Nucleic Acids Res. 2011. 39. 567-577.

30. Kochetov A.V., Volkova O.A., Poliakov A., Dubchak I., Rogozin I.B. Tandem termination signal in plant mRNA. Gene. 2011. 481. 1-6.

31. Смирнова О.Г., Рассказов Д.А., Кочетов A.B. Информационная поддержка экспериментов по трансгенезу растений: база данных трансляционных энхансеров. Вавиловский журнал генетики и селекции. 2012. 16. 520-526.

32. Ventoso I., Kochetov A., Montaner D., Dopazo J., Santoyo J. Extensive translatons remodeling during ER stress response in mammalian cells. PLoS One. 2012. 7(5). e35915

33. Kochetov A.V., Merkulova T.I., Merkulov V.M. Possible link between the synthesis of GR alpha isoforms and eIF2 alpha phosphorylated state. Medical Hypotheses. 2012. 79(6):709-12

34. Kochetov A.V., Prayaga P.D., Volkova O.A., Sankararamakrishnan R. Hidden coding potential of eukaryotic genomes: non-AUG started ORFs. J Biomol Struct Dyn. 2013; 31(1):103-14.

Подписано к печати 04.06.2013 Формат бумаги 60 х 90 1/16 Печ. л. 2. Уч.-изд. л. 1,4 Тираж 120 экз. Заказ 41

Отпечатано на полиграфической базе ИЦиГ СО РАН 630090, Новосибирск, пр. акад. Лаврентьева, 10

Текст научной работыДиссертация по биологии, доктора биологических наук, Кочетов, Алексей Владимирович, Новосибирск

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ЦИТОЛОГИИ И ГЕНЕТИКИ СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК

СТРУКТУРНО-ФУНКЦИОНАЛЬНАЯ ОРГАНИЗАЦИЯ РАЙОНА ИНИЦИАЦИИ ТРАНСЛЯЦИИ В мРНК ЭУКАРИОТИЧЕСКИХ

ГЕНОВ

03.02.07 - генетика, 03.01.09 — математическая биология, биоинформатика

На правах рукописи

05201351638

Кочетов Алексей Владимирович

Диссертация на соискание ученой степени доктора биологических наук

Научный консультант: академик РАН д.б.н. В.К. Шумный

Новосибирск - 2013

СОДЕРЖАНИЕ

СПИСОК СОКРАЩЕНИЙ 5

ВВЕДЕНИЕ 6

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ 10

1.1. Структурно-функциональная организация мРНК эукариотических

генов 10

1.2. Современные представления об эукариотических механизмах трансляции 13

1.2.1. Инициация трансляции: модель линейного сканирования 13

1.2.2. Роль вторичной структуры мРНК в процессе трансляции 19

1.2.3. «Сканирование с подтеканием» (leaky scanning) 21

1.2.4. Реинициация трансляции 21

1.2.5. Внутренние сайты инициации трансляции (internal ribosome entry

sites, IRES) 22

1.2.6. Шунтирование потока рибосом 24

1.2.7. Модификации механизма инициации трансляции, выработанные вирусами 26

1.2.8. Контроль активности трансляционных факторов 28

1.2.9. Сигналы, контролирующие инициацию трансляции индивидуальных

мРНК 29

1.2.10. Трансляционная активность 5'-НТП варьирует: энхансеры трансляции 31

1.3. Сигнал инициации трансляции 3 7

1.3.1. Роль нуклеотидного контекста в распознавании стартовых ко донов

AUG 38

1.3.2. Роль вторичной структуры РНК в распознавании стартовых ко донов

AUG 41

1.3.3. Распознавание стартовых ко донов, отличных от AUG 42

1.3.4. Эффективность сигнала инициации трансляции зависит от комплекса факторов, не все из которых известны 44

1.4. Возможность альтернативной трансляции и ее вклад в кодирующий потенциал эукариотических генов 45

1.4.1. Молекулярные механизмы альтернативной инициации трансляции 47

1.4.2. Альтернативная терминация трансляции 56

1.5. Методы предсказания сайтов инициации трансляции и оценка

кодирующего потенциала эукариотических мРНК 57

1.6. Трансляционно-значимые характеристики мРНК: важность для предсказания паттерна экспрессии генов и эффекта мутаций в некодирующих районах 59

1.7. Заключение по обзору литературы 67

ГЛАВА 2. МАТЕРИАЛЫ И МЕТОДЫ 69

2.1. Выборки нуклеотидных и аминокислотных последовательностей 69

2.2. Программное обеспечение 71

2.3. Статистический анализ 72

ГЛАВА 3. РЕЗУЛЬТАТЫ 73

3.1. Структурно-функциональная организация 5'-НТП мРНК эукариотических организмов 73

3.2. Структурно-функциональная организация 5'-НТП мРНК генов высокого и низкого уровней экспрессии 76

3.2.1. Организация 5'-НТП мРНК генов высокого и низкого уровней экспрессии млекопитающих 77

3.2.2. Структурно-функциональная организация 5'-НТП эукариотических

мРНК на примере генов дрожжей 81

3.2.3. Метод предсказания эффективности трансляции мРНК растений и животных «Leader_RNA» 88

3.3. Альтернативные стартовые ко доны трансляции 94

3.3.1. Вклад механизма «сканирование с подтеканием» и альтернативных стартовых кодонов в полиформизм эукариотических белков по N- 94 концу

3.3.2. Реинициация трансляции и ее вклад в кодирующий потенциал эукариотических мРНК 106

3.4. Дополнительные сигналы, модулирующие активность сигнала инициации трансляции 113

3.4.1. Роль вторичной структуры РНК в распознавании стартового кодона трансляции 114

3.4.2. Роль вторичной структуры РНК в распознавании стартовых кодонов трансляции, отличных от AUG 123

3.4.3. Примеры применения программы AUG_hairpin 129

3.4.4. Влияние аминокислотных остатков в N-концевой последовательности белка на эффективность распознавания

стартового ко дона трансляции 132

3.5. Контекст сигнала терминации трансляции и возможность readthrough в мРНК генов растений 139

3.6. Связь между физико-химическими свойствами мРНК и сигналом инициации трансляции 147

3.7. База данных трансляционных сигналов TRSIG 150

ГЛАВА 4. ОБСУЖДЕНИЕ 156

4.1. Структура 5'-НТП эукариотических мРНК обладает определенными район-специфическими характеристиками, важными для их функции 156

4.2. Структура 5'-НТП эукариотических мРНК адаптирована для поддержания эффективности трансляции на определенном уровне 157

4.3. Структура эукариотического сигнала инициации трансляции 164

4.4. Сигналы инициации трансляции, содержащие He-AUG-стартовые

кодоны 170

4.5. Альтернативные стартовые ко доны трансляции и открытые рамки считывания в составе эукариотических мРНК 172

4.6. Вклад реинициации трансляции в кодирующий потенциал мРНК эукариот 178

4.7. Вклад альтернативной терминации трансляции в кодирующий потенциал эукариотических мРНК 181

ЗАКЛЮЧЕНИЕ 182

ВЫВОДЫ 184

СПИСОК ЛИТЕРАТУРЫ 186

СПИСОК СОКРАЩЕНИЙ а.о. - аминокислотных остатков н. - нуклеотидов п.о. - пар оснований ПЦР - полимеразная цепная реакция мРНК - матричная рибонуклеиновая кислота рРНК - рибосомная рибонуклеиновая кислота тРНК - транспортная рибонуклеиновая кислота НТП - нетранслируемая последовательность (5'- или 3'-концевая) БКП - белок-кодирующая последовательность (CDS) CDS - coding DNA sequence (БКП) elF - эукариотический фактор инициации трансляции 40S, 60S - субъединицы эукариотической рибосомы

ВРР — base pairing probability, вероятность участия нуклеотида в комплементарных взаимодействиях

МТР - mitochondrial targeting peptide, N-концевой пептид, обеспечивающий транспорт белка в митохондрии

SP - secretary peptide, N-концевой пептид, обеспечивающий секрецию белка (транспорт в ЭПР, локализацию в мембранах или экстраклеточную локализацию)

СТР - chloroplast targeting peptide, N-концевой пептид, обеспечивающий транспорт белка в хлоропласты

uAUG - upstream AUG, ко дон AUG, расположенный в составе 5'-нетранслируемой последовательности

uORF - upstream ORF, открытая рамка считывания, начинающаяся с uAUG; располагается в составе 5'-НТП или может перекрываться с белок-кодирующей частью мРНК

БТШ - белок теплового шока

ASA - accessible surface area, размер поверхности (участка молекулы), доступной для взаимодействия с другими молекулами kDa - килодальтон

ВВЕДЕНИЕ

Знание сигналов трансляционного контроля необходимо для изучения молекулярных механизмов регуляции экспрессии генов и предсказания паттернов их экспрессии, что определяет фундаментальную значимость этой проблематики. Поскольку в эукариотических системах контроль эффективности трансляции мРНК в большинстве случаев происходит на стадии инициации, особый интерес представляет изучение 5'-нетранслируемого района мРНК (5'-НТП) и сигнала инициации трансляции. В клетках эукариот 40S субъединицы рибосом связываются с кепом на 5'-конце мРНК и движутся вдоль матрицы в поиске стартового кодона (механизм «линейного сканирования», в качестве сенсора используется антикодон метиониновой тРНК; некоторые мРНК могут содержать сайты внутренней инициации трансляции (IRES) и 40S субъединицы рибосомы могут связываться с участками внутри 5'-НТП или в непосредственной близости от стартового кодона) (Jackson et al., 2010). Было известно, что эффективность инициации трансляции эукариотических мРНК варьирует в широких пределах и вероятность распознавания триплета AUG в качестве стартового кодона трансляции может зависеть от его нуклеотидного окружения (контекста) (Kozak, 1986), однако механизмы, лежащие в основе этих феноменов, оставались неясными. Долгое время существовали модели структурно-функциональной организации эукариотических мРНК, согласно которым 5'-НТО представляла собой служебный участок (спейсер для посадки факторов инициации трансляции и рибосомы), а сигнал инициации трансляции состоял собственно из стартового кодона AUG, расположенного в определенном контексте. Эти упрощенные представления использовали в качестве базовых при предсказании границ белок-кодирующих последовательностей мРНК генов эукариот. Однако, существовали экспериментальные данные, которые нельзя было объяснить таким образом. В отдельных работах было показано, что мРНК могут характеризоваться более сложной организацией: в частности, в составе сигнала инициации трансляции может быть несколько стартовых кодонов (в том числе, и отличных от AUG) и элементы вторичной структуры, а вклад альтернативной трансляции в кодирующий потенциал эукариотических генов существенным образом недооценен. Таким образом, исследования в этом направлении были необходимы для выяснения базовых аспектов организации генов эукариот, что определяло их актуальность.

Цель настоящей работы заключалась в изучении структурно-функциональной организации сигнала инициации трансляции в мРНК эукариотических генов.

Задачи работы включали:

1. Выявление характеристик 5'-НТП мРНК, связанных с их функцией в процессе инициации трансляции в клетках эукариотических организмов.

2. Изучение организации сигнала инициации трансляции в эукариотических мРНК, включающее:

(а) оценку возможности использования нескольких сайтов инициации трансляции;

(б) анализ роли дополнительных характеристик РНК (элементов вторичной структуры и нуклеотидного контекста стартового кодона) в распознавании сайтов инициации трансляции;

3. Оценка вклада альтернативной трансляции в кодирующий потенциал мРНК и протеом эукариотических клеток.

Научная новизна. Обнаружено, что 5'-НТП эукариотических мРНК обладают район-специфическими характеристиками, приводящими к отсутствию стабильной вторичной структуры и, как следствие, способствующими эффективной инициации трансляции (дисбаланс в содержании комплементарных нуклеотидов G/C и A/U). Впервые показано, что мРНК эукариотических генов, экспрессирующихся на высоком уровне, оптимизированы для поддержания высокого уровня трансляционной активности по многим характеристикам (контекст стартового кодона трансляции, контекст терминатора трансляции, размер и особенности нуклеотидного состава 5'-НТП, отсутствие лидерных рамок считывания). Разработан первый способ предсказания трансляционной активности мРНК в клетках млекопитающих, двудольных и однодольных растений по структуре 5'-нетранслируемого района.

Найдено, что некоторые мРНК дрожжей и млекопитающих могут содержать элементы вторичной структуры, локализованные в определенной позиции белок-кодирующей последовательности и способные увеличивать эффективность распознавания стартовых кодонов трансляции в субоптимальном контексте. Разработан информационный ресурс, позволяющий предсказывать наличие «компенсаторной» вторичной структуры в молекуле мРНК. Показано, что характеристика «размер поверхности молекулы, доступной для взаимодействия» (accessible source area, ASA) для участков молекулы РНК контекстно-зависима, при этом кодоны AUG и UGA характеризуются высокими значениями ASA, что могло служить одной из причин выбора именно этих кодонов в качестве сайтов инициации и терминации трансляции на ранних этапах эволюции жизни.

Уточнена структура контекста стартового ко дона трансляции в мРНК млекопитающих: обнаружено, что аминокислотные остатки во второй позиции полипептидов человека и мыши могут влиять на эффективность инициации трансляции.

Впервые показано, что в структуре эукариотических мРНК с высокой частотой могут содержаться альтернативные стартовые кодоны трансляции. Продемонстрировано, что М-концевые трансляционные изоформы белков млекопитающих, растений и дрожжей часто различаются по предсказанной субклеточной локализации, что может быть связано с их функциональной значимостью. Сделана оценка возможности альтернативной терминации трансляции в клетках арабидопсиса и риса: найдено, что вклад этого механизма в синтез трансляционных изоформ белков в сравнении с альтернативной инициацией трансляции значительно менее выражен.

Положения, выносимые на защиту.

1. Базовые контекстные характеристики нуклеотидных последовательностей 5'-НТП мРНК генов эукариот эволюционно адаптированы для эффективного взаимодействия с аппаратом трансляции.

2. Эффективность распознавания стартового кодона трансляции может модулироваться факультативными сигналами, к которым относятся элементы стабильной вторичной структуры РНК и определенные комбинации нуклеотидов в позициях 5'-контекста сайта инициации трансляции и аминокислотных остатков во второй позиции соответствующих полипептидов.

3. Эукариотический сигнал инициации трансляции с высокой частотой содержит альтернативные стартовые кодоны. Альтернативная инициация трансляции вносит значительный вклад в протеом эукариотических клеток.

Теоретическая значимость работы. Разработана расширенная модель структурно-функциональной организации эукариотического сигнала инициации трансляции, включающего факультативные элементы - модуляторы эффективности распознавания стартовых кодонов. Уточнены представления о значимости контекстной организации 5'-НТП эукариотических мРНК: предложена гипотеза о существовании «распределенных» сигналов - элементов контекста, вклад каждого из которых в функциональную активность 5'-НТП относительно мал и может быть значим для высокоэкспрессирующихся генов.

Научно-практическая значимость работы. В работе получены данные, корректирующие методы предсказания эффективности трансляции и кодирующего потенциала эукариотических мРНК. Разработаны оригинальные методы (Ьеас1ег_1ША, А1ГС_11а1грт) и база данных (ТЯБЮ), которые могут использоваться для предсказания

характеристик мРНК и для дизайна генетических конструкций для проведения экспериментов в областях генетики и биотехнологии растений и животных.

Апробация работы. Результаты работы были доложены или представлены на II Международном конгрессе «Биотехнология: состояние и перспективы развития», (Москва, 2003), III съезде ВОГИС (Москва, 2004), International Conference of Bioinformatics of Genome Regulation & Structure (Новосибирск 1998, 2000, 2002, 2004, 2006, 2008, 2010, 2012), International Moscow Conference on Computational Molecular Biology (Москва 2003, 2005, 2007, 2009, 2011), Genome Informatics Conference (Токио, 2001; Йокогама 2004; 2005), 8th International Engelhardt Conference on Mollecular Biology "RNA-protein interactions" (Москва, 2006), Conference on Translational Control and Non-coding RNA (Nove Hrad, Чехия 2006), German-Russian Forum Biotechnology (Новосибирск, 2009), International Conference on Plant Genetics, Genomics and Biotechnology (Новосибирск, 2010), Joint Russian-French Seminar "Genomics, Proteomics, Bioinformatics" (Новосибирск, 2010), Joint Indo-Russian Workshop "Predictive Biology using Systems and Integrative Analysis and Methods" (Индия, 2010), German/Russian Workshop on Integrative Biological Pathway Analysis and Simulation (Германия, 2009, 2010, 2011,2012).

Публикации. По материалам диссертации опубликовано 96 научных работ, из них статей - 31, в том числе в зарубежной печати - 18. Основные результаты получены автором самостоятельно. Ряд исследований выполнен с участием М.П. Пономаренко, И.Б. Рогозина, И.И. Титова, Н.А. Колчанова, JI.JI. Киселева, Д.Г. Воробьева, А.Г. Пальянова, О.А. Волковой, Г.А. Базыкина, В.А. Иванисенко, В.Н. Бабенко, A. Sarai, I. Ventoso, S. Ahmad.

Структура и объем работы. Диссертация включает введение, обзор литературы, материалы и методы, результаты, обсуждение, выводы и список литературы (484 источника). Работа изложена на 225 страницах машинописного текста, включая 31 рисунок и 47 таблиц.

Благодарности. Автор глубоко признателен сотрудникам отдела системной биологии и лаборатории генной инженерии ИЦиГ СО РАН. Особую признательность автор выражает академику РАН Н.А. Колчанову, инициировавшему исследования в области структурно-функциональной организации мРНК эукариот в ИЦиГ СО РАН, академику РАН В.К. Шумному, поддерживавшему эту работу на всех этапах проведения, академику РАН JI.JI. Киселеву - за плодотворное обсуждение.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Структурно-функциональная организация мРНК эукариотических генов

Структура зрелой молекулы матричной РНК эукариотического гена включает несколько функциональных районов: 5'-нетранслируемую последовательность (5'-НТП), белок-кодирующую последовательность (БКП), З'-нетранслируемую последовательность (З'-НТП), поли(А)-хвост. Кроме этого, выделяют сайты инициации и терминации трансляции, ограничивающие БКП. Каждый из районов обладает набором контекстных характеристик, часть из которых может быть связана с выполняемыми ими специфическими функциями. Считается, что 5'-НТП главным образом участвует в процессе инициации трансляции, в то время как З'-НТП задействована в контроле цитоплазматической стабильности мРНК. Ниже приведен краткий обзор литературных данных об особенностях организации этих районов.

5 '-НТП (лидерныйрайон, лидер).

5'-НТП представляет собой участок, расположенный между 5'-концом мРНК и началом белок-кодирующей части. Непосредственной связи между стартом транскрипции и сайтом инициации трансляции нет, что означает отсутствие каких-либо ограничений на размер этого участка мРНК.

Исследование структурно-функциональной организации 5'-НТП было затруднено отсутствием информации о полноразмерных мРНК. Классические методы получения данных об мРНК были основаны на получении и анализе комплементарных ДНК (кДНК), для чего использовалась обратная транскрипция с помощью олиго(с!Т) или случайных праймеров с последующей амплификацией и клонированием полученных фрагментов. Поскольку обратн