Бесплатный автореферат и диссертация по биологии на тему
Поиск и изучение генетических детерминант, определяющих эффективность экспрессии гетерологичных генов в растениях
ВАК РФ 03.02.07, Генетика

Автореферат диссертации по теме "Поиск и изучение генетических детерминант, определяющих эффективность экспрессии гетерологичных генов в растениях"

ТЮРИН Александр Александрович

ПОИСК И ИЗУЧЕНИЕ ГЕНЕТИЧЕСКИХ ДЕТЕРМИНАНТ, ОПРЕДЕЛЯЮЩИХ ЭФФЕКТИВНОСТЬ ЭКСПРЕССИИ ГЕТЕРОЛОГИЧНЫХ ГЕНОВ В РАСТЕНИЯХ

Специальности: 03.02.07 - генетика, 03.01.06 — биотехнология (в том числе бионанотехнологии)

7 НОЯ 2013

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Москва-2013

005537479

005537479

Работа выполнена на кафедре генетики и биотехнологии ФГБОУ ВПО «Российский государственный аграрный университет - МСХА имени К.А. Тимирязева» и в группе функциональной геномики ФГБУН Институт физиологии растений им. К.А. Тимирязева Российской академии наук.

Научные руководители: доктор биологических наук, профессор Соловьев Александр Александрович доктор биологических наук, доцент Голденкова-Павлова Ирина Васильевна

Официальные оппоненты:

Дейнеко Елена Викторовна, доктор биологических наук, профессор, Институт цитологии и генетики Сибирского отделения Российской академии наук, лаборатория биоинженерии растений, заведующая лабораторией.

Генинг Леонид Владимирович, кандидат биологических наук, Институт молекулярной генетики Российской академии наук, .руководитель сектора развития методов молекулярной генетики.

Ведущая организация:

Всероссийский научно-исследовательский институт сельскохозяйственной биотехнологии Российской академии сельскохозяйственных наук.

Защита состоится «27» ноября 2013 года в 16-30 на заседании диссертационного совета Д220.043.10 при Российском государственном аграрном университете - МСХА имени К.А. Тимирязева по адресу: 127550, г. Москва, ул. Прянишникова, д. 15, тел./факс: (499) 976-24-92, e-mail: genetics@timacad.ru

С диссертацией можно ознакомиться в Центральной научной библиотеке им. Н.И. Железнова РГАУ-МСХА имени К.А. Тимирязева.

Автореферат разослан « 25 »октября 2013 г.

Ученый секретарь диссертационного совета

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Создание экспериментальных моделей трансгенных растений для функциональной геномики, как и успех в создании новых форм растений с заданными свойствами или использовании их в качестве продуцентов, зависит от эффективности экспрессии перенесенных (гетерологичных) генов. Эффективность экспрессии гетерологичных генов регулируется на разных этапах: транскрипции, трансляции, и стабильности их белкового продукта. Несмотря на значительные успехи в области генной инженерии растений, в настоящее время исследователи могут строго контролировать уровень экспрессии гетерологичных генов только на этапе транскрипции за счет использования хорошо изученных промоторов. При этом в большинстве случаев отмечается отсутствие корреляции между уровнем мРНК гетерологичного гена и уровнем белкового продукта гетерологичного гена. Это, вероятно, обусловлено тем, что не все мРНК гетерологичного гена эффективно транслируются. Несмотря на существование такой проблемы, генетические детерминанты (факторы), которые важны для эффективной трансляции мРНК гетерологичных генов (такие как 5'-нетранслируемые области, 5'-НТО) у растений, практически не изучены.

Следует также отметить, что отсутствие корреляции между уровнем мРНК гетерологичного гена и уровнем его белкового продукта может быть обусловлено и различием в стабильности белковых продуктов гетерологичных генов. В настоящее время для увеличения стабильности белковых продуктов гетерологичных генов, исследователи, в основном, используют подходы, которые основаны на изменении локализации синтезирующихся белковых продуктов. Например, за счет тканеспецифичных промоторов можно экспрессировать гетерологичный ген в разных тканях (таких как семена) или за счет лидерных последовательностей направить белковый продукт в разные компартменты растительной клетки (такие как хлоропласты, эндоплазматический ретикулум, апопласт). В этом случае увеличение стабильности белкового продукта гетерологичного гена обусловлено меньшей активностью протеолитических ферментов в таких тканях или компартментах. Однако, для многих исследователей тканеспецифичная экспрессия гетерологичного гена или локализация его белкового продукта в различных компартментах растительной клетки зачастую не удовлетворяет как подход для увеличения стабильности белковых продуктов, в частности, при создании экспериментальных моделей растений для изучения физиологической роли генов. В связи с этим, необходим поиск дополнительных подходов, за счет которых можно изменять стабильность белковых продуктов гетерологичных генов у растений, в частности, использование белок-стабилизирующих партнеров.

В настоящее время имеется огромный объем геномной и экспрессионной информации, в том числе и по растениям, которые размещены в соответствующих базах данных. Следует отметить, что сейчас имеется

возможность, используя геномные и экспрессионные данные провести биоинформатический анализ нуклеотидных последовательностей, и выявить структурно-функциональные закономерности для генов, в том числе и выявить генетические детерминанты, за счет которых потенциально возможно модулировать эффективность трансляции мРНК гетерологичных генов и стабильность их белковых продуктов.

В связи с вышеизложенным, поиск генетических детерминант, важных для оптимальной экспрессии переносимого гена в растениях на уровне трансляции и стабильности белковых продуктов является актуальным направлением исследований.

Цель исследования — поиск и изучение ключевых генетических детерминант, обеспечивающих высокоэффективную экспрессию гетерологичных генов у растений, на уровне трансляции мРНК и стабильности их белковых продуктов. Для достижения этой цели нами были сформулированы следующие задачи:

1. Сконструировать экспрессионный вектор для транзиентной экспрессии гетерологичных генов в растениях, несущий ген, кодирующий белок-супрессор «замолкания» генов в составе единой экспрессионной кассеты.

2. Определить характеристики 5'-НТО для растительных генов с разным уровнем экспрессии и вывести консенсусную последовательность 5'-НТО для расткгельных генов с высоким уровнем экспрессии.

3. Определить, можно ли за счет такой консенсусной последовательности 5'-НТО изменить уровень накопления белкового продукта гетерологичного гена в растениях.

4. Оценить новый алгоритм модификации кодонового состава гетерологичных генов для обеспечения эффективности их экспрессии в растениях.

5. Проанализировать частоты встречаемости триплетов, кодирующих вторую аминокислоту в зависимости от ей функциональной роли (стабилизирующей или дестабилизирующей), у всех генов модельных растений.

6. Выяснить вклад кодона, соответствующего второй аминокислоте, в модуляцию уровня накопления белкового продукта гетерологичного гена за счёт изменения его стабильности.

7. Апробировать термостабильную лихеназу Clostridium thermocellum в качестве белок-стабилизирующего партнёра, влияющего на стабильность белковых продуктов гетерологичных генов в растениях.

Научная новизна. Впервые на основе биоинформатического анализа большого числа генов растений с различным уровнем экспрессии выявлена консенсусная последовательность 5'-НТО, и экспериментально подтверждена ее эффективность в качестве генетической детерминанты позитивно влияющей на уровень накопления белкового продукта гетерологичного гена. Экспериментально доказана применимость нового алгоритма модификации кодонового состава гетерологичных генов для обеспечения эффективности их экспрессии в растениях. Впервые выявлено, что у всех генов модельных

растений частоты встречаемости триплетов, кодирующих вторую аминокислоту, сходны: при этом, триплет, кодирующий аланин (стабилизирующий аминокислотный остаток) и триплет, кодирующий аргинин (дестабилизирующий аминокислотный остаток), представлены в генах растениях с самой высокой частотой. Получено экспериментальное подтверждение функциональной роли второго аминокислотного остатка в модуляции уровня накопления белкового продукта гетерологичного гена за счёт изменения его стабильности. Доказано, что термостабильная лихеназа является эффективным белок-стабилизирующим партнёром и увеличивает стабильность белковых продуктов гетерологичных генов в растениях.

Практическая значимость. Сконструированные вектора и разработанные подходы могут быть использованы для экспрессии различных гетерологичных генов в растениях.

Апробация работы. Основные результаты работы докладывались и обсуждались на следующих российских и международных конференциях: Международная научная конференция «Генетика и биотехнология XXI века: проблемы, достижения, перспективы», Минск, 2012 г.; 12-я и 13-я научные конференции молодых ученых «Биотехнология в растениеводстве, животноводстве и ветеринарии». Москва, 2012 и 2013 гг.; IV Всероссийский симпозиум «Трансгенные растения: технологии создания, биологические свойства, применение, биобезопасность». Москва, 2012 г.; Всероссийская научная конференция с международным участием «Инновационные направления современной физиологии растений». Москва, 2013 г.; X Международная конференция «Биология клеток растений in vitro и биотехнология». Казань. 2013.

Структура и объем диссертации. Диссертационная работа состоит из введения, обзора литературы, материалов и методов исследования, результатов и обсуждения, а также выводов, списка цитируемой литературы и приложения. Работа изложена на страницах машинописного текста, включая 9 таблиц и рисунков. Список цитируемых литературных источников включает 23>5~ наименования.

2. Основное содержание работы Глава 1. Обзор литературы. В обзоре литературы отражены современные данные о подходах к анализу больших выборок генетических текстов с применением различных баз данных и сопутствующего программного обеспечения. Особое внимание уделено описанию функциональной роли различных генетических детерминант, определяющих эффективность экспрессии на всех этапах реализации генетической информации.

Глава 2. Материалы и методы исследования.

Для биоинформатического анализа нуклеотидных последовательностей применен информационный ресурс FlowGene.az, для визуализации консенсусных последовательностей — приложение web-logo http://webIogo.berkeley.edu/, для анализа и предсказания вторичной структуры

РНК использовали программы системы RNAstructure (http://rna.unnc.rochester.edu/RNAstructureWeb/Servers/Predictl/Predictl.html). Для молекулярного клонирования применяли стандартные процедуры и протоколы ПЦР. Эндонуклеазы рестрикции, Т4 ДНК-лигазу, Taq- и Р/м-ДНК-полимеразы, фосфатазы использовались согласно протоколам фирм-изготовителей (Promega, США; Fermentas, Литва). Синтетические последовательности целевых генов и генетических детерминант получали химико-ферментативным методом. В работе использованы растения табака Nicotiana bentamiana, выращенные при температуре 25°С в условиях 16-часового светового дня и освещенности 1000-2000 лк, штамм Е. coli XLl-Blue ("Stratagene", США) и штамм агробактерий GV3101. Для трансформации клеток бактерий использовали стандартные методики. Бактериальные клетки для агроинфильтрация растений табака N. benthamiana предварительно ресуспендировали в буфере, и инфильтрировали в нижнюю часть листа шестинедельных растений N. benthamiana с помощью шприца без иглы. Результат оценивали на четвертые сутки после агроинфильтрации. Экстракцию суммарных растворимых белков проводили растиранием свежей или замороженной жидким азотом растительной ткани в 50 мМ Tris-HCl (рН=8.0) буфере с последующим отделением нерастворимых компонентов клеток центрифугированием. Количество белка в образцах определяли по методу Bradford. Уровень накопления целевых белков определяли по отношению активности лихеназы, входящей в состав рекомбинантных белков к суммарному растворимому белку. Разделение белков проводили методом электрофореза в дена1урирующих условиях в 12%-ном ПААГ согласно Laemmli. Энзимограммы получали окрашиванием геля после разделения белков согласно методу Тизер и Вуд, с некоторыми модификациями. Определение активности лихеназы на чашках проводили по методу Бегуин. Активность интерферона оценивали по подавлению цитопатогенного действия тест-вируса в культуре перевиваемых клеток L-929. Статистическая обработка результатов проводилась с использованием программы «Statistica for Windows 9.0» (применяли t-критерий Стьюдента для независимых выборок, Р=0,05) и графопостроителя «Microsoft Office Excel 2007».

Глава 3. Результаты и обсуждение

Первоначально, мы разработали общую схему проведения исследований, которая состоит из двух этапов: теоретический этап, включающий биоинформатический анализ, разработку схем синтеза новых генетических детерминант, модификацию последовательностей генов; и экспериментальный этап, нацеленный на верификацию результатов биоинформатического анализа и включающий создание экспрессионных векторов и их апробацию в растениях (рис. 1). Исходя из общей схемы, для экспериментального этапа исследований, в частности, изучению роли генетических детерминант в эффективности реализации генетической информации, необходимо иметь удобный экспрессионный вектор. Для этой цели был сконструирован базовый вектор

серии рУЮ-Т, который, наряду с ключевыми компонентами экспрессионных растительных векторов, содержит ген р19 вируса СутЬШит гіщкрої (СутЯБУ) под контролем промотора ТСТР (рис. 2).

Рисунок 1. Общая схема исследования.

Эта часть вектора необходима для предотвращения замолкания целевого гена в растительной клетке. Следует отметить, что обычно это достигается за счет котрансформации листьев растения двумя штаммами агробактерий (одни из которых несет конструкцию с целевым геном, другой — с геном, кодирующим супрессор замолкания). Таким образом, в экспериментальном этапе исследований нами использован только один тип экспрессионных векторов, который испольюван для верификации результатов биоинформатического анализа.

I алостСцА^ацм И^САГ'Д: ИИИ^ИИИ ШИЭДс!оыоосс, ООАТСС .слоена д*жттг. .Сссооо | ,аттдАС соло : як* | к.1-1 »■,»« ( вили) | РЖ I-------вь«—| Н|ми—| хет* ]

— промотор 35S РНК вируса мозаики цветной капусты. ТСТР - промотор гена трансляционно контролируемого опухолевого белка (transiationally controlled tumor protein). pl9 — ген pi9 И ! Cymbidium ringspot (CymRSV) — вируса томата LB и RB — левая и правая границы области Т-ДНК, соответственно. RI-R11 — уникальные сайты рестрикции для клонирования целевого гена в состав экспрессионной кассеты и для её переноса в окончательный растительный вектор. plJC orí и oriV — точка начала репликации для E.coli и A.tumefaciem. Anipr — ген устойчивости к ампицилину. polyA — сигнал полиаденилированкя.

3.1 Анализ 5'-нетранслируемой области растительных генов и ее роль в эффективности экспрессии гетерологичных генов

Следует отметить, что 5'-НТО является ключевым регуляторным элементом, определяющим эффективность экспрессии на этапе инициации трансляции. Для того, чтобы выяснить особенности строения 5'-НТО растительных генов, определили распределение всех генов модельного растения в зависимости от размера 5'-НТО, оценили содержание гуанина и цитозина в этой области и получили распределение для генов с различным уровнем экспрессии в зависимости от размера 5'-НТО. Проведенный анализ позволил установить, что большинство генов модельного растения имеют размер 5'-НТО от 70 до 120 п.н. (рис. 3), при этом эта закономерность сохраняется и для групп генов с разным уровнем экспрессии (рис. 4); среднее содержание гуанина и цитозина в 5'-НТО генов составляет 37% (данные в автореферате не приводятся).

Распределение генов АгаЬйорзю в зависимости от размера 5'-нетранслируемой области

Размер 5'-нетранслируемой области

0

£ 800

1 600

□ Ряд1

Рисунок 3. Распределение всех генов А. АаНапа в зависимости от размера 5-НТО.

'взмер Б'-нотранслнруемой области!

Рисунок 4. Распределение генов А. 1ИаНапа в зависимости от размера 5-НТО и уровне экспрессии 1 -100, 101-1000 и 1001 -10000 относительных единиц.

Дальнейший анализ 5'-НТО растительных генов с высоким уровнем экспрессии, позволил выделить наиболее часто представленные в этой области

6

мотивы (рис. 5), Затем эти мотивы объединены в состав консенсусной 5'-НТО, размер которой составил 87 п.н.. Отметим, что большинство растительных генов имеют размер 5'-НТО от 70 до 120 п.н (рис. 3).

Рисунок 5. Последовательность logo консенсусной 5'-нетранслируемой области растительных генов с высоким уровнем экспрессии.

Для того, чтобы определить, можно ли за счет такой консенсусной последовательности 5'-НТО изменить уровень накопления белкового продукта гетерологичного гена в растениях, консенсусная 5'-НТО синтезирована и клонирована в модульный вектор серии р\ТС-Т (рис. 2), который несет бирепортерный ген, содержащий транскрипционно-трансляционное слияние двух репортеров: зелёного флуоресцентного белка и термостабильной лихеназы (вектор обозначен как рУЮ-Т-87-ШТ1-ОЬ). В качестве контроля использован вектор рУЮ-Т-ОЬ, который также несет тот же бирепортерный ген, но не содержит консенсусной 5-НТО. Далее, агробактериями, несущими вектора рУЮ-Т-87-иТК-ОЬ и рУЮ-Т-СгЬ, проведена агроинфильтрация растений табака N. Ьешкттапа. Сравнительный анализ белковых лизатов, полученных из трансфицированных растений, продемонстрировал, что использование консенсусной 5'-НТО приводит к увеличению уровня накопления целевого белка не менее, чем на 20% (рис. 6).

Контроль 87-UTR

Рисунок 6. Уровень накопления репортерного белка, %. 87-и"Щ — уровень накопления репортерного беллса при трансформации вектором рУЮ-Т-87-иТК-ОЬ (несет последовательность 5'НТО), контроль — уровень накопления репортерного белка при трансформации вектором рУЮ-Т-вЬ (не содержит последовательность 5'НТО).

Полученные результаты позволяют заключить, что консенсусная последовательность 5'-НТО, полученная на основе биоинформатического анализа большого числа растительных генов с различным уровнем экспрессии, может увеличивать эффективность трансляции мРНК гетерологичного гена.

3.2 Оптимизация кодового состава целевых генов

Известно, что кодоновый состав гетерологичных генов в силу вырожденности генетического кода может значимо отличаться от частоты встречаемости триплетов в гомологичных генах и пула тРНК у организма-реципиента трансгена. Это может приводить к низкой эффективности экспрессии гетерологичного гена на уровне элонгации трансляции и, как следствие, к низкому выходу его белкового продукта. Следует отметить, что для преодоления этой проблемы исследователи проводят модификацию кодонового состава целевого гена. При этом, используют подход, основанный на выравнивании частот встречаемости кодонов в последовательности целевого гена и таковым для генов с высоким уровнем экспрессии организма-реципиента целевого гена. Стоит, однако, подчеркнуть, что модификация кодонового состава, проведенная таким образом, не всегда приводит к увеличению выхода белкового продукта целевого гена. В связи с этим, мы решили апробировать новый подход для модификации кодонового состава целевого гена, который предложен в группе функциональной геномики ИФР РАН и лег в основу разработанного оригинальною программного обеспечения (см. Материалы и методы). Этот подход основан на том, что выравнивание частоты встречаемости триплетов в целевом гене проводиться с учетом частоты встречаемости триплетов во всех генах модельного растения (например, Arabidopsis thalianá). Применимость именно такого подхода основано на предположении, что пул тРНК для генов с высоким уровнем экспрессии может значительно отличаться от такового для совокупности всех генов организма, и введение дополнительной, обычно высоко представленной, мРНК с кодоновым составом, сходным с высокоэкспрессируемыми генами, может привести к тому, что тРНК определенного типа будет недостаточно для эффективной трансляции.

Для того, чтобы оценить новый алгоритм модификации кодонового состава гетерологичных генов для обеспечения эффективности их экспрессии в растениях, нами проведен анализ последовательностей модельных целевых генов (эритропоэтин и интерферон-альфа-2А человека) с использованием программного обеспечения FlowGene. На рисунке 7 представлены гистограммы, отражающие соотношение частот встречаемости различных триплетов в последовательности целевого гена, на примере эритропоэтина, до оптимизации и после.

В результате проведенного анализа получена текстовая последовательность целевого гена с изменённым кодоновым составом. Далее были синтезированы и собраны полноразмерные модифицированные последовательности целевых генов, которые интегрированы в вектор pVIG-T. В ходе экспериментальной работы получены следующие экспрессионные вектора

р\ТС-Т-еро-НсВ, рУЮ-Т-ет-ИсВ, рУЮ-Т-Ы-ИсВ, рУЮ-Т-ип-НсВ. Следует подчеркнуть, что вектора рУЮ-Т-еро-НсВ и рУЮ-Т-тЫюВ несут не модифицированные (нативные) последовательности генов, а вектора рУЮ-Т-еш-НсВ и рУЮ-Т-ип-ИсВ - модифицированные последовательности этих же целевых генов. Также следует отметить, что для визуализации и количественной оценки уровня накопления белкового продукта целевых генов нами использовано трансляционное слияние целевых генов с репортерным геном термостабильной лихеназы.

кіікііііііііі

* .4 -* л * л 'л. л < Л. X е* л/ и л .г л- ^ ^ „•' і і. Г. . <. 1 » > * 4 Л Л- Лл Л >* л Л х .» л . » о. .... . „ "

Рисунок 7. Распределение частот- встречаемости кодонов в среднем по геному А. Лаііапа (синие столбики) и в целевом гене (красные столбики), до оптимизации (А) и после (Б). Представлены результаты для гена, кодирующего эритропоэтин.

I _

• £»о-||сВ-р>/Ю-Т апьПсВ-р>ЛО'Т ІтЛсВ-рУІО-Г Іт-ІІ«їВ-р\/ю~Т

Рисунок 8, Выход целевого белка при экспрессии генов с модифицированным и нативным кодоновым составом в векторе рУЮ-Т. еро-НсВ, ет-іісВ, іпМісВ, іт-1ісВ — гены эритропоэтина и интерферона-альфа-2а с наггивным и модифицированным кодоновым составом, соответственно, слитые с геном термостабильной лихеназы.

Транзиентная экспрессия полученных векторов в растениях табака позволила установить, что уровень накопления целевых белков, которые кодируются модифицированными последовательностями генов, увеличивается на 35-40% (рис. 8).

Таким образом, полученные результаты позволяют сделать следующее заключение: оптимизация юдонового состава целевых генов, проведенная с использованием нового алгоритма, приводит к значимому увеличению уровня целевого белка и является важным генетическим фактором, влияющим на эффективность экспрессии генов на уровне элонгации трансляции.

3.3 Вторая аминокислота, как фактор, определяющий стабильность белкового продукта.

Сохранениз стабильности белкового продукта является наряду с остальными этапами биосинтеза белка решающим этапом наработки целевого пептида, поскольку нестабильные молекулы рекомбинантных белков даже при высоком уровне экспрессии не будут сохраняться до момента их выделения. В связи с этим, следующий этап работы был направлен на поиск генетических детерминант, которые могут обеспечивать стаблчьность белкового продукта целевых генов в растениях. В качестве таковой нами выбрана вторая аминокислота. Наш выбор основан на так называемом эмпиричесгом правиле И-конца, которое гласит, что время жизни белка в организме определяется аминокислотным остатком во втором положении. Следует упомянуть, что эта закономерность выявлена и хорошо изучена у дрожжей и клеток животных, тогда как функционирование этого правила для растительных белков остается слабо изученной. В настоящее время, имеется классификация аминокислот по их вкладу в обеспечении стабильности белка, среди них выделяют стабилизирующие и дестабилизирующие аминокислотные остатки, последние, в свою очередь, делятся ещё на три группы, в зависимости от степени проявления их дестабилизирующих свойств.

Первонач;шьно мы оценили распределение всех генов нескольких видов растений в зависимости от встречаемости аминокислоты во втором положении. Как видно из представленных результатов во втором положении белков растения преобладает аминокислота аланин, которая относится к группе стабилизирующих аминокислотных остатков (рис. 9). Сходный профиль распределения частот второго аминокислотного остатка характерен для большинства организмов, таких как А. ¡ИаНапа, кукурузы, человека и других, что может свидетельствовать о высокой консервативности данного механизма (данные в автореферате не представлены).

На основании проведенного анализа, сохранения окружения стартового кодона и из соображения удобства последующего клонирования целевых генов для экспериментальных работ в качестве стабилизирующего аминокислотного остатка выбран глицин и один из кодонов, который его кодирует - (ХКд В качестве дестабилизирующей аминокислоты нами был выбран аргинин и один

из кодонов, который его кодирует - AGG

Для того, что выяснить вклад кодона, соответствующего второй аминокислоте, в модуляцию уровня накопления белкового продукта гетерологичного гена за счёт изменения его стабильности сконструированы два вектора на основе серии векторов pVTG-T - pVIG-T-LG и pVIG-T-dN-LG, содержащие триплеты, различающиеся триплетом, кодирующим второй аминокислотный остаток — GGG для глицина и AGG для аргинина (дестабилизирующий вариант).

Рисунок 9. Частота встречаемости аминокислотных остатков во втором положении у всех белков А. ¡ИаНана. Стрелками цвета отмечены аминокислоты: стабилизирующие (оранжевые), дестабилизирующие I, II и III порядков (зелёные, фиолетовые, розовые, соответственно).

Для сравнительного анализа экспрессии использовали бирепортерный белок, представляющий собой трансляционное слияние зелёного флуоресцентного белка и термостабильной лихеназы. Полученными векторами проведена агроинфильтрация растений табака. Сравнительные результаты по уровню накопления бирепортерных белков, которые во втором положении несут либо стабилизирующий, либо дестабилизирующий аминокислотный остаток, позволили установить, что уровень накопления белкового продукта, который имеет во втором положении дестабилизирующий аминокислотный остаток, уменьшен на 30% (рис. 10),

С,Ы). и.о. Дветав. "

Рисунок 10. Уровни накопления бирепортерного белка в зависимости от наличия стабилизирующего или дестабилизирующего аминокислотного остатка во втором положении полипептидной цепи.

Таким образом, полученные результаты подтвердили гипотезу о том, что стабильность белкового продукта в клетках растений определяется также тем, какой аминокислотный остаток находится во втором положении.

3.4 Разработка белок-стабилизирующего партнёра на основе термостабилыюй лихеназы.

Как отмечено в начале, для увеличения стабильности белкового продукта целевого гена можно использовать разные подходы, среди которых трансляционное слияние последовательности целевого гена с последовательностью, кодирующей стабильный пептид или белок, является весьма перспективным. В качестве такого нами апробирована термосбильная лихеназа СЛоатйтт IИегтосеИит, которая способна выдерживать без потери ферментативной активности длительную экспозицию при температуре 70°С, сохраняет свои свойства при значительных достройках в неструктурированные участки. Всё это делает данный фермент привлекательным кандидатом на роль белок-стабилизирующего партнёра.

Для того, чтобы апробировать термостабильную лихеназу в качестве белок-стабилизирующего партнёра, влияющего на стабильность белковых продуктов гетерологичных генов в растениях, первоначально проведён анализ устойчивости белка термостабильной лихеназы к различным протеолитическим ферментам, результаты которого представлены на рисунке 11.

Рисунок 11. Проверка устойчивости лихеназы к различным протеолитическим ферментам. 1 - 1лоВМ1 + протеиназа XIV; 2 - 1лсВМЗ + протеиназа XIV; 3 - 1лсВМ1; 4 -1лсВМЗ; 5 - 1лсВМ1 + протеиназа № б - 1лсВМЗ + протеиназа № 7 - ЬюВМ1 + протеиназа К; 8 - 1лсВМЗ + протеиназа К

Как видно из представленных результатов, лихеназа полностью или частично сохраняет устойчивость к большинству проанализированных протеолитических ферментов.

Для апробации термостабильной лихеназы сконструированы модифицированные варианты, в которые клонированы небольшие линкерные последовательности, содержащие 2 и/или 3 уникальных сайта рестрикции.

Интеграция этих последовательность проведена в последовательность гена термостабильной лихеназы, в которой локализованы 53 и/или 99 а.о. (рис. 12). Введение линкерных последовательностей с уникальными сайтами рестрикции необходимо для упрощения процедуры интеграции последовательностей целевых генов. Модифицированные гены термостабильной лихеназы обозначены нами как N€-¿-53, N€-1-99, Ш-Ь-53-99.

IMC-L--53

~ 15*

a m ш m

шшш

з-|

GGATCC { Ват HI)

NC-L-53-99 —ЯВНННП

¡ЙШШШВЙР

■1МИ1 —

NC-L-99

Ш

Рисунок 12. Схемы модифицированных генов термостабильной лихеназы, содержащие в областях, кодирующих 53 и 99 а.о. малые линкерные последовательности. К1-Я5 — сайты рестрикции, Ж-Ь-53, N0-1-99, N0-1-53-99 — варианты модифицированных генов лихеназы с интеграцией сайтов в области, соответствующие 53 и/или 99 а.о.

Для того, чтобы проверить сохранили ли модифицированные варианты термостабильной лихеназы, которые кодируются сконструированными генами N6-1-53, N0-,1-99, N€-1,-53-99, основные свойства (термостабильность и активность) были проведены следующие эксперименты. Модифицированные гены лихеназы были экспрессированы в составе вектора рС^ЕЗО, в бактериях Е.соН. Анализ бактериальных трансформантов с использованием метода чашечного теста позволил выявить специфическую ферментативную активность термостабильной лихеназы во всех бактериальных трансформантах (рис. 13 А).

А Б В

Рисунок 13. Анализ бактерий Я.со//, трасформированных экспрессионными векторами, несущими различные варианты модифицированных генов термостабильной лихеназы, NC-L-53 - лихеназа с интеграцией мультиклонального сайта в положение 53 а.к., NC-L-99 -лихеназа с интеграцией мультиклонального сайта в положение 99 а.к., NC-L-53-99 - лихеназа с интергацией в оба положения. I.icBM3 - нативная лихеназа. А - чашечный тест, Б -энзимограмма, В - апектрофореграмма.

Для того, чтобы ассоциировать эту активность с конкретным белком, бактериальные белковые лизаты проанализированы методом энзимограмм и электрофореза в денатурирующих условиях, которые (рис. 13 Б и В) показали наличие белкового продукта с массой, соответствующей теоретически рассчитанной, и проявляющего характерную для лихеназы ферментативную активность.

Для подтверждения способности термостабильной лихеназы выступать в качестве белок-сгабилизирующего партнёра были сконструированы гибридные гены, представляющие собой трансляционное слияние (im-licB) или интеграцию (NC-L-53-ш/ и NC-L-99-wi) генов целевого белка и лихеназы (рис. 14). В качестве модельного полипептида использовали интерферон-альфа-2а человека, обозначенный нами как int. Первоначально гибридные гены экспрессированы в составе экспрессионных векторов рЕТ32а.

Nc-L-53-irri-M»ftiF- im ЯКШатЯШНВь-

NC-L-99-lIm " RSlKtenc)-

1т-исВ -г 1т МШ^-енс!) <53) —

Рисунок 14. Схемы гибридных генол 1т — ген интерферона. 53, 99 — положения, кодирующие 53 и 99 а.о. 1лс(Ы-епс1), 1лс(С-епс1) — участки гена термостабилыюй лихеназы, соответствующие К- и С-концу данного белка. Ш-Я6 — сайты рестрикции.

Анализ бактериальных трансформантов (методом чашечного теста и зимограмм) продемонстрировал сохранение гибридными белками специфической ферментативной активности, присущей лихеназе. При этом в бактериальной системе экспрессии отмечено увеличение выхода целевого белка (интерферона-альфа-2А) в составе гибридного белка, по сравнению с выходом нативного интерферона (данные в автореферате не приводятся).

Для проверки эффективности использования термостабильной лихеназы для повышения стабильности целевых полипептидов в растительных клетках сконструированы вектора рУЮ-ТЧт-НсВ, рУЮ-Т-ЫС-Ь-53-)т, рУЮ-ТЧт, где 1т - последовательность гена интерферона-альфа-2А с модифицированным кодоновым составом для эффективной экспрессии в растениях (см. раздел 3 .2).

Полученными векторами проведена транзиентная экспрессия в растениях N. ЬсЫатхапа. Анализ белковых лизатов, выделенных из трансформированных растений, показал сходный уровень накопления белков при агроинфильтрации как векторами, несущими гибридные гены, так и контрольным вектором, содержащим только ген репортерного белка (рис. 15).

Для того, чтобы выяснить способна ли термостабильная лихеназа выступать в качестве белок-стабилизирующего партнера в составе гибридных

белков, проведён тест на активность интерферона-альфа-2А. В сравнительном анализе использовали как нативный, так и гибридный интерферон-альфа-2А, т.е. слитый с термостабильной лихеназой, синтезированных в растительных клетках (рис. 16).

|П1-1-1сВМЗ МС1_-53 1пт МсВМЗ

Рисунок 15. Уровень накопления целевого белка (интерферона-альфа-2А) при его слиянии с термостабильной лихеназой как беяок-стабйлизирующим партнером.

1т 1тЧ-1сВМЗ

Рисунок 16. Тест на активность нативного и гибридного интерферона, синтезированного при транзиентной экспрессии в растениях.

Как видно на представленных данных, активность гибридного белка, в котором интерферон имеет слияние с термостабильной лихеназой, выше на 40%, по сравнению с нативным интерфероном. Этот результат, может быть обусловлен большим содержанием интерферона в составе суммарного растворимого белка, полученного из листьев растений, в которых экспрессировали гибридный ген, чем полученного из листьев растений, в которых экспрессировали нативный ген. Полученные результаты убедительно

свидетельствуют о повышенной стабильности интерферона в составе гибридного белка.

Таким образом, можно заключить, что использование слияния целевого белка с белок-стабилизирующим партнёром приводит к значительному увеличению выхода рекомбинантного полипептида, которое достигается за счёт повышения его термостабильности и устойчивости к протеолитическим ферментам.

ВЫВОДЫ

1. Методами биоинформатики выявлено, что 72% генов арабидопсиса имеют 5'-НТО размером 70-120 п.н. и содержанием гуанина и цитозина 37%,

2. Использование консенсусной последовательности 5'-НТО, выведенной на основе результатов биоинформатического анализа, привело к повышению уровня накопления рекомбинантных полипептидов на 20%.

3. Оптимизация кодонового состава гетерологичных генов, основанная на частотах встречаемости триплетов всех генов организма-реципиента, приводит к увеличению эффективности трансляции, и, как следствие, влияет на повышение уровня накопления белкового продукта целевого гена в пределах 2530%.

4. Подтверждено участие второй аминокислоты в обеспечении стабильности белкового продукта у растений, при сравнении двух логически противоположных вариантов: стабилизирующая и дестабилизирующая аминокислоты.

5. Установлена эффективность использования термостабильной лихеназы в качестве белок-стабилизирующего партнёра, который позволяет проводить детекцию и очистку рекомбинантного полипептида, а также повышает выход целевых полипептидов на 35-40%,

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ

1. Тюрин A.A. Серия модульных векторов для стабильной и транзиентной экспрессии гетерологичных генов в растениях. /А.О. Вячеславова, О.н. Мустафаев, A.A. Тюрин, Х.Р. Шимшилашвили, И.Н. Бердичевец, Д.М. Шаяхметова, М.А. Голденков, B.C. Фадеев, Ю.В. Шелудько, И.В. Голденкова-Павлова.// Генетика. — 2012. — Т. 48, № 9. С. 1046-1056.

2. Тюрин A.A. Экспрессия гетерологичных генов в растительных системах: новые возможности. /А.О. Вячеславова, И.Н. Бердичевец, A.A. Тюрин, Х.Р. Шимшилашвили, О. Мустафаев, И.В. Голденкова-Павлова.// Генетика. — 2012,— Т.48,№ 11. С. 1067-1079.

3. Тюрин A.A. Сравнительное изучение эффективности Agrobacterium-опосредованной транзиентной экспрессии гетерологичных генов, кодирующих решмбинантные белки, в растениях. /Вячеславова А.О., A.A. Тюрин, Д.М. Шаяхметова, Х.Р. Шимшилашвили, И.Н. Бердичевец, Голденкова-Павлова И.В.// Генетика и биотехнология XXI века: проблемы, достижения, перспективы. Материалы Международной научной конференции (к 100-летию со дня рождения академика Н.ВЛУрбина). — Минск. — 2012,- С. 246.

4. Тюрин A.A. Серия модульных векторов для клонирования целевых генов и регуляторных элементов с целью обеспечения стабильной и эффективной экспрессии гетерологичных генов в растениях. /Вячеславова А.О., Шимшилашвили Х.Р., Бердичевец И.Н., Тюрин A.A., Мустафаев О., Голденкова-Павлова И.В. // Биотехнология в растениеводстве, животноводстве и ветеринарии Материалы XII научной конференции молодых ученых. — Москва. — 2012. с. 27-28

5. "Порин A.A. Создание, эффективная экспрессия и детекция гибридных бифункциональных белков на основе термостабильной лихеназы Clostridium thermocellum в растениях. /Герасименко И.М., Синдаровская Я.Р., Кучук Н.В., Тюрин A.A., Вячеславова А.О., Шимшилашвили Х.Р., Шелудько Ю.В., Голденкова-Павлова И.В.// ТРАНСГЕННЫЕ РАСТЕНИЯ: технологии создания, биологические свойства, применение, биобезопасность Материалы IV Всероссийского симпозиума. — Москва. — 19-23 ноября 2012 г. с. 28.

6. "Порин A.A. Термостабильная лихеназа как репортерный белок для экспрессии целевых белков и пептидов в растительных системах. /A.A. Тюрин, Д.М. Шаяхметова, О. Мустафаев, И.В. Голденкова-Павлова.// Генетика и биотехнология XXI века: проблемы, достижения, перспективы. Материалы Международной научной конференции (к 100-летию со дня рождения академика Н.В.Турбина). — Минск. — 2012,- С. 136.

7. ТЮрин A.A. Сравнительное изучение эффективности Agrobacterium-опосредованной транзиентной экспрессии гетерологичных генов, кодирующих рекомбинантные белки, в растениях. /А.О. Вячеславова,

A.A. Тк>рин, Д.М. Шаяхметова, Х.Р. Шимшилашвили, И.Н. Бердичевец, Голденкова-Павлова И.В. // Генетика и биотехнология XXI века: проблемы, достижения, перспективы. Материалы Международной научной конференции (к 100-летию со дня рождения академика Н.В.Турбина). — Минск. — 2012.- С. 110.

8. Тюрин A.A. Анализ структурных и функциональных характеристик генов растений и их применение для эффективной экспрессии гетерологичных генов в растениях. /Тюрин A.A., Мустафаев О., Бердицевец И.Н., Шимшилашвили Х.Р., Вячеславова А.О., Голденкова-Павлова И.В. // Биотехнология в растениеводстве, животноводстве и ветеринарии. Материалы ХШ научной конференции молодых ученых. — Москва. — 2013. С. 52-53.

9. Тюрин A.A. Анализ закономерностей структурных и функциональных характеристик генов растений. /Мустафаев О., Тюрин A.A., Бердицевец И.Н., Шимшилашвили Х.Р., Вячеславова А.О., Голденкова-Павлова И.В.// Инновационные направления современной физиологии растений Материалы Всероссийской научной конференции с международным участием.— Москва. — 2013. С. 124-125.

Ю.Тюрин A.A. Экспрессия гетерологичных генов в растительных системах: новые возможности. /Тюрин A.A., Бердичевец И.Н., Мустафаев О., Никифорова Х.Р., Фадеев B.C., Голденкова-Павлова И.В.// Биология клеток растений in vitro и биотехнология. Материалы X Международной конференции. — Казань. —2013. С. 263-264.

БЛАГОДАРНОСТИ

Автор выражает глубокую признательность и благодарность своим научным руководителям доктору биологических наук, профессору Голденковой-Павловой Ирине Васильевне и доктору биологических наук, профессору Соловьёву Александру Александровичу за бесценную помощь при выполнении научной роботы; всем сотрудникам кафедры, особенно кандидату биологических наук Большаковой Людмиле Семёновне за постоянную поддержку и помощь; всем сотрудникам группы функциональной геномики ИФР РАН: Никифорофой Христине Романовне, Бердичевец Ирине Николаевне, Фадееву Виталию Сергеевичу, Мустафаеву Орхану Нариман огпы, Вячеславовой Алисе Олеговне, а также сотрудникам лаборатории молекулярных основ внутриклеточной регуляции, особенно Лосю Дмитрию Анатольевичу и Миронову Кириллу Сергеевичу за оказанную помощь на всех этапах подготовки и проведения научной работы; своей семье и друзьям за понимание и неоценимую поддержку.

Отпечатано с готового оригинал-макета

Формат 60х84'/16 Усл.печ.л. 1,4. Тираж 100 экз. Заказ 489.

Издательство РГАУ-МСХА 127550, Москва, ул. Тимирязевская, 44 Тел.: (499) 977-00-12, 977-26-90, 977-40-64

Текст научной работыДиссертация по биологии, кандидата биологических наук, Тюрин, Александр Александрович, Москва

РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ - МСХА имени К. А. ТИМИРЯЗЕВА

04201363646

На правах рукописи ТЮРИН АЛЕКСАНДР АЛЕКСАНДРОВИЧ

ПОИСК И ИЗУЧЕНИЕ ГЕНЕТИЧЕСКИХ ДЕТЕРМИНАНТ, ОПРЕДЕЛЯЮЩИХ ЭФФЕКТИВНОСТЬ ЭКСПРЕССИИ ГЕТЕРОЛОГИЧНЫХ ГЕНОВ В РАСТЕНИЯХ

Специальности: 03.02.07 - генетика, 03.01.06 — биотехнология (в том числе бионанотехнологии)

Диссертация на соискание ученой степени кандидата биологических наук

Научные руководители: доктор биологических наук, профессор Соловьёв Александр Александрович доктор биологических наук, доцент Голденкова-Павлова Ирина Васильевна

Москва 2013

ОГЛАВЛЕНИЕ

Список сокращений................................................................................................4

ВВЕДЕНИЕ..............................................................................................................6

ГЛАВА I. ОБЗОР ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ........................................9

1.1 Информационные ресурсы для хранения и анализа биологической информации растительных объектов.................................................................9

1.2 Генетические детерминанты, определяющие эффективность реализации генетической информации................................................................................22

1.2.1 Регуляторные элементы, обеспечивающие эффективность транскрипции генов в растениях..................................................................25

1.2.2 Детерминанты процессинга и сплайсинга пре-мРНК.......................31

1.2.3 Детерминанты, определяющие уровень экспрессии целевых генов в растениях на этапе трансляции.......................................................34

1.2.4 Эффективность трансляции в зависимости от кодонового состава генов.................................................................................................................39

1.2.5 Детерминанты, определяющие уровень экспрессии целевых генов в растениях на этапе стабильности белкового продукта...............................42

1.2.6 Термостабильная лихеназа Clostridium thermocellum.......................55

1.3 Заключение. Постановка цели исследования...........................................58

ГЛАВА II. МАТЕРИАЛЫ И МЕТОДЫ...............................................................61

2.1 Бактериальные штаммы..............................................................................61

2.2 Растительный материал...............................................................................61

2.3 Биоинформатический анализ. База данных FlowGene.az........................61

2.4 Методы молекулярного клонирования......................................................65

2.5 Трансформация бактерий............................................................................65

2.6 Агроинфильтрация растений табака N. benthamiana...............................66

2.7 Получение белковых лизатов......................................................................66

2.8 Анализ белковых лизатов............................................................................67

ование модульного белок-стабилизируюшего партнёра на

абильной лихеназы..................................................................

ование модельного гена эритропоэтина с

зным кодоновым составом......................................................

»ование гибридных генов, кодирующих рекомбинантный ;ирующий партнёр с интеграцией или слиянием с нативны $анными вариантами генов интерферона-альфа-2А и

Заключение..........................................................

ВЫВОДЫ............................................................

СПИСОК ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ

152

153

Список сокращений

мРНК - матричная РНК 5'-НТО - 5'-нетранслируемая область З'-НТО- З'-нетранслируемая область

EST- Expression Sequencing Tag - фрагмент экспрессируемого гена

NGS - Next Generation Sequencing - технологии параллельного

секвенирования

ДБ(ОВ) - база данных (Database)

Е. coli - Esherichia coli - кишечная палочка

ДНК - дезоксирибонуклеиновая кислота

кДНК (cDNA) - комплементарная ДНК

SNP - однонуклеотидный полиморфизм.

siPHK - малые интерферирующие РНК

SCL - Subcellular Localization - субклеточная локализация

GO - gene ontology - онтология генов

пре-мРНК - незрелая мРНК

IRES - сайт внутренней посадки рибосом)

тпРНК - транспортная РНК

TSS — transcription start site - сайт начала транскрипции GTFs - общие факторы транскрипции

35S CaMV- промотор 35S РНК вируса мозаики цветной капусты РБФК - рибулозо-бис-фосфат-карбоксилаза А С- альтернативный сплайсинг.

775{7-элементы - translation initiator of short 5' UTR - трансляционные инициаторы коротких 5'-НТО

uORFs - upstream open reading frames -открытые рамки считывания, локализованные выше основной

uAUGs - upstream start codons - стартовые кодоны, также локализованные

выше основного

ЭР (ЕЯ) - эндоплазматический ретикулум иЬ - биквитин

ЫсВ - лихеназа, ИсВ - ген, кодирующий лихеназу ДСН (БОБ) - додецилсульфат натрия N. ЬеШкат1апа - N ¿со Пап а ЬеМкштапа А. Ште/аЫет - Agюbacterium Ште/аслеп^ ПААГ- полиакриламидный гель БСА - бычий сывороточный альбумин

ц/р - ген зелёного флуоресцентного белка, С^Р - зелёный флуоресцентный белок

Ш и ш, еро и ет — гены интерферона и эритропоэтина с нативным и модифицированным кодоновым составом, соответственно Т-ДНК- переносимая ДНК

ВВЕДЕНИЕ

Получение рекомбинантных белков - одна из ключевых задач биотехнологии. Наиболее актуальным направлением в этой области является получение полипептидов, естественный источник которых крайне ограничен — как правило, это различные белки человека и животных, имеющие фармацевтическое значение. Для получения таких важных полипептидов используется их биосинтез в различных гетерологичных системах: трансгенные животные, культура клеток (в равной степени это относится как к эукариотическим, так и прокариотическим организмам), а также трансгенные растения. Слеудет подчеркнуть, что трансгенные растения, на наш взгляд, представляются наиболее преспективным кандидатом на роль ключевого продуцента целевых белков. Тем не менее, использование растительных объектов для наработки гетерологичных полипептидов сопряжено с целым рядом как прикладных, так и фундаментальных проблем, решение которых по-прежнему остаётся незавершённым.

Создание экспериментальных моделей трансгенных растений для функциональной геномики, как и успех в создании новых форм растений с заданными свойствами или использовании их в качестве продуцентов, зависит от эффективности экспрессии перенесенных (гетерологичных) генов. Эффективность экспрессии гетерологичных генов регулируется на разных этапах: транскрипции, трансляции, и стабильности их белкового продукта. Несмотря на значительные успехи в области генной инженерии растений, в настоящее время исследователи могут строго контролировать уровень экспрессии гетерологичных генов только на этапе транскрипции за счет использования хорошо изученных промоторов. При этом в большинстве случаев отмечается отсутствие корреляции между уровнем мРНК гетерологичного гена и уровнем белкового продукта гетерологичного гена. Это, вероятно, обусловлено тем, что не все мРНК гетерологичного гена

эффективно транслируются. Хотя данная проблема стоит достаточно остро, генетические детерминанты (факторы), которые важны для эффективной трансляции мРНК гетерологичных генов (такие как 5'-нетранслируемые области — 5'-НТО, кодоновый состав целевых генов) у растений, практически не изучены.

Следует также отметить, что отсутствие корреляции между уровнем мРНК гетерологичного гена и уровнем его белкового продукта может быть обусловлено и различием в стабильности белковых продуктов гетерологичных генов. В настоящее время для увеличения стабильности белковых продуктов гетерологичных генов, исследователи, в основном, используют подходы, которые основаны на изменении локализации синтезирующихся белковых продуктов. Например, за счет тканеспецифичных промоторов можно экспрессировать гетерологичный ген в разных тканях (таких как семена) или за счет лидерных последовательностей направить белковый продукт в разные компартменты растительной клетки (такие как хлоропласты, эндоплазматический ретикулум, апопласт). В этом случае увеличение стабильности белкового продукта гетерологичного гена обусловлено меньшей активностью протеолитических ферментов в таких тканях или компартментах. Однако, для многих исследователей тканеспецифичная экспрессия гетерологичного гена или локализация его белкового продукта в различных компартментах растительной клетки зачастую не удовлетворяет как подход для увеличения стабильности белковых продуктов, в частности, при создании экспериментальных моделей растений для изучения физиологической роли генов. В связи с этим, необходим поиск дополнительных подходов, за счет которых можно изменять стабильность белковых продуктов гетерологичных генов у растений, в частности, использование белок-стабилизирующих партнеров.

В настоящее время имеется огромный объем геномной и экспрессионной информации, в том числе и по растениям, которые

размещены в соответствующих базах данных. Следует отметить, что сейчас имеется возможность, используя геномные и экспрессионные данные провести биоинформатический анализ нуклеотидных последовательностей, и выявить структурно-функциональные закономерности для генов, в том числе и выявить генетические детерминанты, за счет которых потенциально возможно модулировать эффективность трансляции мРНК гетерологичных генов и стабильность их белковых продуктов.

В связи с вышеизложенным, поиск генетических детерминант, важных для оптимальной экспрессии переносимого гена в растениях на уровне трансляции и стабильности белковых продуктов является актуальным направлением исследований.

ГЛАВА I. ОБЗОР ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ

1.1 Информационные ресурсы для хранения и анализа биологической информации растительных объектов

В настоящее время ряд геномных проектов для разных видов растений завершен и/или находится на разных этапах их выполнения (таблица 1.1, Приложение 1). Помимо этого, постоянно растет число исследований по определению фрагментов экспрессируемых генов (EST - Expression Sequencing Tag) растений (на август 2012 года в открытом доступе представлены данные более чем о 40 ООО EST).

С другой стороны, использование биологических микрочипов как высоко-пропускной технологии, применяемой, в основном, для исследования модельных растений, таких как арабидопсис и рис, предоставляют огромный массив данных по количественному уровню экспрессии множества транскриптов в одном эксперименте. Развитие современных технологий параллельного секвенирования (NGS - Next Generation Sequencing) позволило сделать получение информации о генетических текстах рутинным компонентом многих биологических исследований. Использование этих технологий привело к глобальному изменению количества получаемой биологической информации - нуклеотидных последовательностей ДНК и РНК, а также результатов по количественному анализу экспрессии генов, прежде всего, у немодельных видов растений, так называемые транскриптомные исследования. С использованием транскриптомных исследований получен огромный массив данных по количественному анализу тысяч генов, экспрессирующихся на различных стадиях развития растений (при прорастании, созревании, цветении), а также при действии различных стрессовых факторов, как биотических, так и абиотических.

Масштабность современных задач биологии, и в частности геномных и экспрессионных исследований, в совокупности с развитием современных методов получения биологической информации, привели к появлению впечатляющего объема биологических данных.

Для хранения огромного массива биологической информации используются информационные ресурсы, которые, обычно обозначаются как базы данных (Database, DB), а ресурсы для анализа этой информации обычно обозначают как сервера (web server), хотя термин базы данных также применим к этим ресурсам. Следует отметить, что существует различная классификация информационных ресурсов для хранения и\или анализа биологической информации. Ниже приведены несколько примеров такой классификации:

I. Классификация

1) Архивные базы данных

включают огромный массив различной биологической информации, обычно поделенный на подгруппы - например, GenBank - первичные последовательности нуклеиновых кислот; PDB - пространственные структуры белков;

2) Интегрированные базы данных

включают биологическую информацию, в том числе и дополнительное описание с указанием: организмов, в которых встречается; места локализации в геноме, функции и т.д. - например, NCBI Entrez -информация о нуклеотидных и аминокислотных последовательностях и структурах; Есосус - гены, белки, метаболизм и пр. Е. coli;

3) Локальные базы данных

включают биологическую информацию либо по конкретным организмам, либо биологическим молекулам, таким как ДНК, РНК, белки, либо отдельным группам последовательностей, вовлеченных в определенные биологические процессы - например, PlnTFDB - база данных о

транскрипционных факторах растений; PRGdb - база данных для анализа генов устойчивости у растений; SALAD - база данных для анализа мотивов белков растений и установления их функций.

II. Классификация

1) Курируемые базы данных

для этих баз данных информацию из архивных баз данных отбирают эксперты, проверяя достоверность информации - например, Swiss- Prot -наиболее качественная база данных, содержащая аминокислотные последовательности белков; KEGG - информация о метаболизме; FlyBase -информация о Drosophila; COG - информация об ортологичных генах прокариот.

2) Не курируемые базы данных,

к ним относятся в основном архивные базы данных. Источниками информации служит прямая подача от исследователей, литература, Центры исследований последовательностей, обмен с другими базами - например, GenBank; Ensembl.

III. Классификация

1) Всеобъемлющие базы данных

представлена разнообразная биологическая информация - например, GenBank; Ensembl, GEO.

2) Организм-специфические базы данных

представлена биологическая информация из разных видов организмов - например, TAIR (арабидопсис), MSU (рис).

3. Молекуло-специфичные базы данных

ориентированы на различные группы молекул - ДНК, РНК, белки.

4. Последовательность-специфичные базы данных

ориентированы на различные последовательности - геномы, мРНК,

ESTs (например, SolEST), промоторы (например, Synbioss Designer) и др.

IV. Классификация

«Первичные» базы данных

содержат экспериментально полученную биологическую информацию, например, GenBank; Ensembl, GEO.

«Вторичные» базы данных

основаны на компьютерной обработке биологической информации, например, PromoterCAD, UniProt.

Базы данных с аннотированной информацией по модельным организмам.

например, TAIR (арабидопсис), MSU (рис).

Среди хорошо известных «первичных» баз данных, следует обозначить: GenBank, UniProt, Pfam, PDB, DIP. В текущей версии GenBank (апрель 2013 г.) содержится 164 млн. последовательностей, общей длиной 151 млрд. п.н., дополнительно в разделе WGS (последовательности, полученные методом глубокого параллельного секвенирования) 110 млн., общей длиной 418 млрд. п.н. В базе данных UniProt представлено свыше 40,4 млрд. записей по аминокислотным последовательностям; в Pfam - 14 831 домен и 18,5 млн. записей, в PDB - 91 939 пространственных структур белков, в DIP - 75 ООО белок-белковых взаимодействий. Эти данные демонстрируют объем полученной биологической информации, хранящейся только в части «первичных» баз данных.

Отдельно следует выделить информационные ресурсы, специализирующиеся на компьютерном предсказании различных биологических функций и структур макромолекул («вторичные» базы данных).

Ниже дан краткий обзор ряда информационных ресурсов, которые могут быть полезными для исследователей, работающих в области генетики и биотехнологии растений для предсказания структурно-функциональных характеристик определенных последовательностей, которые можно

использовать для планирования экспериментов.

Базы данных для анализа геномных последовательностей.

База данных TAIR (The Arabidopsis Information Resource, http://www.arabidopsis.org) содержит информацию последовательностей генома модельного растения Arabidopsis thaliana, а также данные о структуре генов и их генных продуктах, экспрессионные данные и дополнительную информацию об этом виде растений, включая публикации.

RAP-DB играет важную роль в исследованиях риса [Hiroaki et al., 2013] Данная база, основанная в 2004 году, содержит основанную на литературных источниках аннотацию генов риса, кДНК и данные по однонуклеотидному полиморфизму (SNP). База данных имеет открытый доступ для пользователей: http ://rapdb. dna. affrc. go. i p/down load/irgsp 1. html. Следует отметить и базу данных MSU (http://rice.plantbiology.msu.edu/), которая также содержит полезную информацию о 12 аннотированных хромосомах риса.

MaizeGDB представляет собой информационный ресурс для хранения и анализа биологической информации о нескольких линиях кукурузы, включая генетическую и метаболическую информацию (www.maizegdb.org).

PlantGSEA (Gene Set Enrichment Analysis - GSEA) - мощный подход для интерпретации биологического значения набора генов [Xin et al., 2013]. Этот подход основан на определения перекрытий с различными предварительно определенными наборами генов. Наборы генов (20 290 наборов генов), основанные на GO, загружены из соответствующих аннотированных баз данных, включая TAIR [Swarbreck et al., 2008], MSU rice [Ouyang et al., 2007] and Phytozome [Goodstein et al., 2012]. Следует подчеркнуть, что база данных PlantGSEA включает (1) хорошо известные аннотационные системы, такие как GO и KEGG, (2) опубликованные данные, такие как TAIR и RGAP, (3) литературные данные и (4) компьютерные предсказани