Бесплатный автореферат и диссертация по биологии на тему
Компьютерный анализ закономерностей кодирования функциональных сайтов белков в генах позвоночных
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Компьютерный анализ закономерностей кодирования функциональных сайтов белков в генах позвоночных"

На правах рукописи

МЕДВЕДЕВА ИРИНА ВАДИМОВНА

КОМПЬЮТЕРНЫЙ АНАЛИЗ ЗАКОНОМЕРНОСТЕЙ КОДИРОВАНИЯ ФУНКЦИОНАЛЬНЫХ САЙТОВ БЕЛКОВ В ГЕНАХ ПОЗВОНОЧНЫХ

03.01.09 Математическая биология, биоинформатика

Автореферат диссертации на соискание ученой степени кандидата биологических наук

005557585

Новосибирск 2014

005557585

Работа выполнена в лаборатории компьютерной лротеомики Федерального государственного бюджетного учреждения науки Институт цитологии и генетики Сибирского отделения Российской академии наук, г. Новосибирск, Россия.

Научный руководитель: кандидат биологических наук, доцент

Иванисенко Владимир Александрович

Официальные оппоненты: Омельямчук Леонид Владимирович,

доктор биологических наук, заведующий лабораторией генетики клеточного цикла, Федеральное государственное бюджетное учреждение науки Институт молекулярной и клеточной биологии Сибирское отделение Российской академии наук, г. Новосибирск

Москалев Алексей Александрович,

Доктор биологических наук, доцент, заведующий лабораторией молекулярной радиобиологии и геронтологии Института биологии Коми НЦ УрО РАН, г. Сыктывкар

Ведущее учреждение: ФГУН Государственный научный центр вирусологии и

биотехнологии «Вектор», п. Кольцове, Новосибирская область

Защита диссертации состоится «Л6» 2014 г. на утреннем

заседании диссертационного совета Д 003.011.01 по защите диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук в Институте Цитологии и Генетики СО РАН в конференц-зале Института по адресу: 630090, г. Новосибирск, проспектах. Лаврентьева, 10.

Тел.: (383)363-49-06, факс: (383) 333-12-78, е-таП^воУ^шпеМкс.ги.

С диссертацией можно ознакомиться в библиотеке ИЦиГ СО РАИ и на сайге института wvvw.bionet.nsc.1-й.

Автореферат разослан {Р-гс-1¡РсУ/^р^ 2014 г.

Ученый секретарь диссертационного совета, доктор биологических наук

Л

/Ь ' Хлебодарова Т.;

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Исследование механизмов, лежащих в основе эволюции структуры и функции белка, является одним из важнейших разделов современной биологии. В ходе дискуссии в 1978 году Уильям Гилберт выдвинул предположение, согласно которому один экзон кодирует один домен (Gilbert, 1978). Однако дальнейшие исследования показали, что корреляция между границами доменной и экзонной структур наблюдается не всегда (Kaessmann et al., 2002). Непосредственно в функциональных взаимодействиях белка или его домена задействовано небольшое количество аминокислотных остатков, образующих функциональный сайт. Функция и структурная организация функциональных сайтов напрямую связаны с молекулярной эволюцией соответствующих генов и белков, однако, эта взаимосвязь оставалась практически не изученной.

Исследование закономерностей и анализ структурно-функциональной организации генов с учетом информации о расположении границ экзонов, доменов и функциональных сайтов белков как на уровне аминокислотных последовательностей, так и нуклеотидных последовательностей ДНК невозможны без применения биоинформатических методов. До недавнего времени возможности применения этих методов были ограпичены небольшим числом полностью секвенированных геномов секвенированных геномов и расшифрованных третичных структур белков. В настоящее время накоплены огромные массивы молекулярно-генетических данных, представленных в базах последовательностей генов (GeneBank, EMBL, Ensembl и др.), белковых последовательностей (SwissProt, Trembl и др.), пространственных структур белков (PDB) и их функциональных сайтов (PDBSite, SitesBase). Интеграция этих ресурсов позволяет получить новые знания о структурно-функциональной организации экзонов, доменов, функциональных сайтов, участков с повышенной консервативностью и других генетических кодах, представленных в геномных последовательностях и их роли в эволюции молекулярно-генетических систем живых организмов.

Цель настоящего исследования. Цель работы состояла в выявлении закономерностей кодирования функциональных сайтов белков с использованием проекций границ экзонов на первичные и пространственные структуры белков. В связи с этим решались следующие задачи:

1. Разработка компьютерной системы, предназначенной для анализа проекций на аминокислотную последовательность белков экзонной структуры кодирующих их генов, границ доменов и позиций функциональных сайтов. Создание базы данных, интегрирующей результаты проекции и существующие ресурсы по структурно-функциональной организации белков и генов.

2. Интеграция компьютерной системы с программой BLAST с целью поиска " гомологичных экзонов и участков полипептидоз, кодируемых одним экзоном, и программой 3DPDBScan для осуществления структурного выравнивания анализируемого белка с пространственными структурами фрагментов белков, кодируемых одним экзон ом.

3. Анализ закономерностей распределения фрагментов ДНК, кодирующих функциональные сайты белков, в экзонной струетуре гена

4. Исследование распределения кодонов в фрагментах ДНК, кодирующих

функциональные сайты белков, на границах экзонов.

Научная новизна. Впервые установлено, что функциональные сайты белков преимущественно кодируются более длинными экзонами. При этом оказалось, что в случае разрывных функциональных сайтов, кодирующие их фрагменты ДНК преимущественно распределяются в пределах одного или нескольких сближенных в последовательности гена экзонов. Впервые выявлены статистически значимые отличия между частотами фаз кодонов, расположенных на 5'-конце экзонов, кодирующих и не кодирующих функциональные сайты белков. Согласно этим данным нулевая фаза кодонов встречается реже в случаях экзонов, кодирующих функциональные сайты. Впервые выдвинута гипотеза о том, что экзоны, кодирующие только фрагменты функциональных сайтов белков, меньше' подвержены перетасовкам по сравнению с другими экзонами. Таким образом, возникновение функциональных сайтов в аминокислотных последовательностях' белков может быть фактором, ограничивающим изменчивость экзонной структуры генов, в том числе в результате перетасовок экзонов.

Впервые создана программно-информационная система, интегрирующая различные структурные и функциональные данные о белках и кодирующих их генах, включая белковые и геномные последовательности, экзон-интронную структуру, домены и функциональные сайты. Система включает в себя базу данных 5№.х, содержащую данные о функциональных сайтах белков, нуклеотидных и аминокислотных последовательностях экзонов и соответствующих им фрагментов пространственных структур полипептидной цепи белка, а также программы анализа. Новизной обладают предоставляемые в системе возможности поиска по базе данных ДНК последовательностей экзонов с помощью программы ВЬАБТО, а также поиска по базе данных фрагментов белков, кодируемых отдельно взятыми экзонами, с помощью ВЬЛЯТР и программы ЗОРОВЗсап, осуществляющей структурное выравнивание ЗБ структур этих фрагментов.

Практическая ценность. Разработанная компьютерная система ЗкЕх имеет свободный доступ через Интернет и может использоваться дм решения широкого круга фундаментальных и прикладных задач, связанных с анализом соотношения экзон-интронной структуры генов и структурно-функциональной организации кодируемых ими белков. ЗкЕх позволяет проводить поиск гомологии между белковыми последовательностями, а также осуществлять структурное сравнение белков с учетом информации об экзон-интронной структуре кодирующих их генов. Функциональные возможности созданной системы 8НЕх могут быть использованы при планировании генно-инженерных экспериментов.

Положения, выносимые на защиту.

- Функциональные сайты белков значимо чаще, чем ожидается но случайным причинам, кодируются одним или близко расположенными в последовательности гена экзонами;

- Длина экзонов, кодирующих участок белка, содержащий аминокислотные остатки функциональных сайтов, в среднем значимо превышает длину остальных экзонов;

- Частота представленности фазы 0 кодонов, располагающихся на 5'-конце экзонов в районах ДНК, кодирующих функциональные сайты, значимо меньше частоты представленности фазы 0 кодонов на 5'-конце экзонов в районах ДНК, не кодирующих функциональные сайты.

- Кодоны, содержащие аденозин и тимин в третьей позиции, используются чаще во фрагментах ДНК длиной до 15 нуклеотидов на 5'-конце экзонов, кодирующих функциональные сайты белков человека.

Апробация. Результаты работы были представлены на международных и российских конференциях: на международной конференции 19th Annual International Conference on Intelligent Systems for Molecular Biology and 10th European Conference on Computational Biology (Австрия, Вена, 2011); на Международной конференции по биоинформатике регуляции и структуры генома (BGRS) в 2008, 2010, 2012 гг. (Россия, Новосибирск); на летней школе 2011 International German/Russian Summer School on Integrative Biological Pathway Analysis and Simulation (Германия, Билефельд, 2011); на Школе Молодых Ученых в 2008 и 2010 гг. (Россия, Новосибирск); на международной конференции The 2007 International Conference on Bioinformatics & Computational Biology (2007, США, Лас-Вегас); на Международной научной конференции студентов, аспирантов и молодых учёных "Ломоносов-2007" (Москва, Россия) и на XLIV Международной научной студенческой конференции "Студент и научно-технический прогресс" (Новосибирск, Россия).

Публикации. В результате выполнения работы было опубликовано 3 статьи в рецензируемых журналах, рекомендованных ВАК, 6 тезисов к российским и международным конференциям, получено одно свидетельство о государственной регистрации базы данных.

Личный вклад автора. Основные результаты работы были получены и проанализированы автором самостоятельно, а именно: (1) разработана структура и интерфейс базы данных SitEx; (2) разработаны алгоритмы и программы, с использованием которых проведен анализ геномных данных и данных по функциональным сайтам белков и заполнение на этой основе базы данных SitEx; (3) осуществлена интеграция доступных внешних программ BLAST и PDB3DScan в систему SitEx; (4) проведен анализ данных из базы данных SitEx по установлению закономерностей кодирования функциональных сайтов белков в геномах позвоночных. Реализация веб-версии компьютерной системы была осуществлена совместно с Деменковым П. С.

Структура и объем работы. Работа состоит из оглавления, списка сокращений, введения, трех глав, заключения, выводов, списка литературы и пяти приложений. Материал изложен на 108 страницах (101 страница текста и 7 страниц приложений), содержит 28 рисунков, 11 таблиц, 2 формулы.

Благодарности. Автор выражает искреннюю благодарность руководителю диссертации к.б.н. Иванисенко В.А., соавторам и коллегам по работе - академику РАН Колчанову H.A., к.б.н. Деменкову П.С., к.б.н. Орлову Ю.Л., д.б.н. Кочетову A.B. за консультации и плодотворные научные дискуссии. Автор особо благодарен к.б.н. Рогозину И.Б. за большой объём консультаций по биологическим вопросам и за помощь в биологической интерпретации результатов.

Список сокращений: БД - база данных, ФС - функциональный сайт белка; ЭКФС - экзоны, содержащие кодоны, кодирующие аминокислоты функционального сайта; ЭНФС - экзоны, не содержащие кодоны, кодирующие аминокислоты функционального сайта.

СОДЕРЖАНИЕ РАБОТЫ

Глава 1. Обзор литературы. Рассмотрены основные принципы структурно-функциональной организации белков с анализом существующих данных о классификации функциональных сайтов, в том числе по физико-химическим свойствам и типу связываемых ими лигандов. Проведен анализ существующих теорий по молекулярной эволюции генов с подробным обсуждением гипотезы о корреляции границ экзонной структуры гена и доменной структуры белка. Сделан обзор существующих баз данных и веб-ресурсов, содержащих информацию о структурной организации и функциональных свойствах белков, включая базы данных по функциональным сайтам, а также существующим ресурсам, позволяющим анализировать проекцию экзонной структуры гена на первичную и пространственную структуру белка. В заключение показаны недостатки существующих подходов к изучению закономерностей кодирования функциональных сайтов белков и актуальность проведения исследований в этой области. Сделан вывод об отсутствии компьютерно-информационных систем, интегрирующих распределенные данные по структурно-функциональной организации белков и генов, позволяющих проводить анализ взаимной проекции их структур.

Глава 2. Компьютерная система SitEx. Разработана компьютерная система SitEx, предназначенная для анализа соотношения между экзон-интронной структурой генов и особенностями структурно-функциональной организации белков, включая структуру и свойства их доменов и функциональных сайтов. Система состоит из трех интегрированных между собой компонентов:

1) базы данных, содержащей информацию о проекциях на аминокислотную последовательность белков экзонной структуры кодирующих их генов, границ функциональных и структурных доменов белков, а также позиций функциональных сайтов белков;

2) программных средств BLAST и 3DPDBScan, предназначенных для поиска по базе данных SitEx на основе анализа сходства нуклеотидных последовательностей генов, а также первичных и третичных структур белков;

3) веб-интерфейса, обеспечивающего доступ к базе данных и программным средствам, а также предоставляющего графическую визуализацию результатов.

При создании базы данных SitEx использовались данные из таких ресурсов как Ensembl (хранение полной информации о последовательности гена), Protein Data Bank (БД PDB, содержащая информацию о пространственной структуре белков), SCOP (структурная классификация белков) (рис. 1). В разделе приводится описание форматов данных этих ресурсов.

На первом шах создания базы данных Sitl-.x из ВД РОВ опирались записи, содержащие координаты атомов пространственных структур полинептидов. имеющих менее 90% сходства между собой по амянокислотной послелова(ельносги. при этом находящихся в комплексе с различными липшдами. Кроме того проводилась фильтрация ио организмам. рассматривались только позвоночные 1аким оброгюм. из БД РОВ (версия 55) было отобрано около 12 000 записей На втором mare. устанавливалось соответствие между отобранными записями БД РОВ и базой данных EnsembL Критериями соигпситви* записей БД РОВ и БД hnsemhl являлись указание идентификатора соответствующей записи БД РОВ в записи БД Ensembl. а также сходство аминокислотных последовательностей (не менее 90% идс1п нчности но аминокислотной последовательности), приведенных в данных записях, рассчитываемое с помощью глобального парного выравнивания с применением программы CLUSTALW. На пом шаге была отобрана 2021 уникальная запись.

Из записи РОВ извлекалась следующая информация Описание белков и лигамдон извлекалось из полей HEADER. TITLE. COMPND. SOURCE, KEYWDS. HETNAM. Описание сайтов и информация об их позициях в аминокислотной последовательности извлекаюсь из полей REMARK 800 и SITE. Из поля АТОМ извлекались координаты атомов нолииептидов. которые исиолькнллись при поиске по базе данных SitEx с помощью сгруктурного выравнивания, осуществляемого программой 3DPDBScmn.

SCO»

v---i

Pförn

Ensembl

Clus ta IW !

I

4 1

PHOJI I«. D .41 » > Л N К

SitEx

Рисунок I Схема интегрирования данных на основе компьютерны! прз.-рамм и 6ai данных необходимых для разработки SltEx

Из Ensembl для каждого белка извлекалось его наименование, кодирующая нуклеотидиая последонате п.ностъ. полная аминокислотная послсдовотельносп.. а также информация о расположении |раииц зкзонов в нуклеотилной последовательности и |раниц доменов Pfam в аминокислотной последовательности. Дополнительно, по заданному идентификатору записи РОВ из базы данных SCOP извлекалась информация о границах структурных доменов белков. Рабога с РОВ велась на основе файлов в формате pdb. Доступ к информации базы данных Rnscmbl осуществлялся с использованием функционала.

предоставляемого веб-интерфейсом, а также через опертый MySQL сервер (cnsembliib.enscmbl org). Ike программы для интеграции данных написаны на языке Perl и языка запросов MySQL.

Покалате-чи разрывности функциональных сайтов белков

Все сайты, представленные в базе данных SitEx, >.арак1сри «опались показа!елями разрывности сайта в последовательности белка и в «тонной структуре кодирующею гена. Коэффициент разрывности белковых функциональных сайтов в зкзонной структуре кодирующих генов CoelV., вычислялся по формуле

('oefh = I • ——--.

¿-Л

где А - порядковый номер первого экюна в последовательности гена, кодирующею функциональный сайт, /'! • порядковый номер последнею экзона в последовательности lena. кодирующего функциональный сайт. А" - число экэонов последовательности гена, кодирующих функциональный сайт. Дпя расчета коэффициента разрывности функциональных сайтов в аминокислотных последовательностях CoefA применялась аналогичная формула

CorfA-l----.

К + •

где М - количество аминокиело! функциональною сайга в аминокислотой последовательности, л! ■ позиция последнею аминокислотою остатка сайта, Г,' • позиция первого остатка.

экзон экзон экэон <'11 |-1 ЭКФС

экзон экэом экэон I-п оилг

Coe/h -0.S3 [ ........ г ----- 1 .....1 I——' ЗНФС

экзон экэон экэон экэоч

Cotjh 0} I | " . I: | —Zi

Рисунок 2. Пример значений коэффициента разрывности сайта т леюнам

Как можно видеть из формул значения СоеГЕ и CoefA лежат в интервале [О. I). При лом их значения равны 0. если в пределах границ сайга, отмеченных на аминокислотой последовательности белка, в случае CoefA, или на зкзонной структуре, в случае CoefL, располагаются только аминокислоты функционального сайта или экзоны, участвующие в кодировании функциональною сайта, соответственно (рис. 2). В противном случае, значения ггих коэффициентов стремятся к единице в зависимости от количества вставок в заданные границы фумкципна иною сайта аминокислот или jk-kmiou. не связанны* с данным сайюм

Описание структуры баш данных SilEx

БД SilEx являете* реляционной базой данных, для создания когорой использовалась система управления MySQL. Структура БД представлена на рис. 3.

Вся описательная информация о функциональных сайгах хранится в таблицах PDB_Sitc. Информация об идентификаторах Enscmbl. кодирующих иуклеотидных и аминокислотных последовательностях, хранится в таблицах ENS Chain. Описание белка, полученное из БД PDB, внесено и таблицу PDB Chain. Последние две таблицы связаны между собой вспомогательной таблицей ENS_PI)B_Chain.

на маниям таблиц

Поскольку функциональный сайт может быть распределен по нескольким белковым цепям, представленным в структуре PDB. то для описания связи между сайтом и цепями белка в БД создана таблица PDB Sile Chain. Позиции аминокислог функционального сайта в последовательности белка из Enscmbl хранятся в таблице SilcPosPEP. а соответствующие им позиции в кодирующей нуклеотидной последовательности, хранятся в таблице SitePosCDS. Таблицы SilePosPEP. SitePosCDS. I'DB Sitc и ENS_Chain связаны между собой через соответствующие идентификаторы

Таблицы Pfam и Scop содержат информацию о позициях границ доменов в аминокислотной последовательности. содержащейся в ноле ScqPEP таблицы

7

Е№_С1шп. Таблица Р1)Нас1 информирует о тех идентификаторах РОВ. которые описывают бедки, имеющие последовательность, сходную с представленной н БД ЯИЕх. более чем на 90%. Таблица ЕхопРОВ содержит файлы РОВ. сгенерированные для каждого экзона. если для его последовательности известна пространственная структура. Остальные таблицы содержат различную дополнительную информацию о белках и колирующих их тюв. включая полиморфизмы генов.

Описание веб-интерфейса

Разрабо1анный веб-интерфейс обеспечивает доступ пользователей к базе данных ИцЕх и визуализацию результатов поиска. Реализована возможность проведения гибкого поиска по текстовым полям БД ИИЕх и поиска по сходству нуклеотидных или аминокислотных последовательностей. а также пространственных структур белков, выполняемою с помощью про1рамм ВЕЛИТ и ЗОРОВЯсап, соответственно. Для удобства осуществления запросов и представления результатов поиска веб-интерфейс реализован в виде отдельных страниц, соответствующих определенным функциональным возможностям системы или типам данных.

к (!**•»!• ► !Г?;*> -Чвг Ш

шршоп

татташ

ЬУИПЩМа УИ'П"; ■.:■»!

1 ГЧМ4. Н > РТ^П» ЛГ »1 1 * Л г^ '

г,_

kt'iliivl t vt >)• 11 К I г ы i. H'í'- !|4MkeIpiTlTr»llkrilkáHltV4a^lfe|feil*4lql*HUUCflllttAl

fvfp*««svJffK|/yklctqAiM)lkviv;>J^/pbkfí.vdlaiedf lqkyiltlqwdhltd^t

|Г!г:ч:ш: г.-: . «г tllil i-IKIM ИШЮЩЖ. 11 /<q¡y U Irjf / ¡

шшкшули . i: i» i«t r^fi;, . «t: i Íум.» .С.ЛГ J J.Y'j '1§- Bl iv J'JVÍí"ll4*l teieia lMVkr.L*.49V<CVtvYipJ«p*N«rdvOf t«>í l f inwtvltkilartlHtftUtlWttkl 164lcv*k»v*cpf>pc ttfcfilditlvíftr IftvtciE.pt ■■ • -Ш i-l'l-' c^wcqeqlt

jiJvuliOiibl^ tib , Jll^Jl : Щ. - HI^LfVÍULid*l(T>«iSklt«liV«lUti«Vttv9l«V

«tfUj^eufttfetgtitgfettfttaj^fgUKtjCftuiKetett^-if^tTgjgteiítqtjHctj^KtTH1 Рисунок 4. Страница описания жзона в бак данных SilEx. Представлен блок описания последовательности. блок для разметки доменов на последовательности, а также блок дли разметки аминокислот функциональных сайтов на последовательности жзона либо полипептиде, кодируемом ич

Страница описания экзона (рис. 4) предназначена для представления результатов поиска по БД БИЕх, содержащих информацию об экзонах, включая длину экзона, положение его границ в кодирующей нуклеотидной последовательности гена, аминокислотной последовательности белка, а также различную описательную информацию о белке и соответствующем гене, согласно БД РПВ и ЕпяетЫ. На странице в графическом виде показана разметка на аминокислотных и нуклеотидных последовательностях границ экзонов, белковых доменов, а также позиций функциональных сайтов.

Страница функционального сайта предназначена для представления результатов поиска по БД БкЕх, содержащих информацию о функциональных сайтах, включая данные о белках, доменах, разметке позиций функциональных сайтов в аминокислотных и кодирующих нуклеотидных последовательностях, коэффициентах разрывности сайтов и т.д. Для удобства представления, также как и на «странице описания экзона» используется графическое изображение аминокислотных и нуклеотидных последовательностей с выделением позиций функциональных сайтов, границ белковых доменов и экзонов.

Страница статистики предоставляет текущую информацию о содержании БД. Ниже, согласно данной странице, приведена статистика по настоящей версии БД:

• 14 организмов (75% сайтов представлено белками человека, 10% белками мыши, 5% белками крысы, 5% белками быка, а остальные белки представлены единично);

• 715лигандов;

• 2021 (из 4014) уникальных последовательностей1;

• 9994 (из 10887) уникальных сайта2;

• классификация белков (Таблица 1);

• классификация сайтов (Таблица 2).

Таблица 1. Классификация белков в SitEx

Наименование Кол-во записей

Белки мышц 225

Белки крови 25

Белки клеточного цикла 328

Ферменты (с ЕС-номером, киназы, синтазы) 2069

Белки иммунной системы 274

Мембранные белки 73

Рецепторы 213

Белки репликации, транскрипции, трансляции 73

Белки теплового шока 22

Транспортные белки 313

Белки опухолей 161

«Цинковые пальцы», RING пальцы 177

Другие белки и предшественники 614

Уникальная последовательность - та, которая не повторяется в выборке. 2 Уникальный сайт - сайт, который не повторяется в одной и той же структуре по аминокислотному

составу

Классификация белков проводилась по ключевым словам, включающим ткань, функцию, локализацию и процесс в названиях белков, извлеченных из базы данных ЕпвешЫ. Всего было выделено 13 групп белков, среди которых максимально представленными оказались ферменты (Таблица 1).

Лиганд-связывающие сайты также классифицировались по ключевым словам, коду функциональных сайтов в БД РОВ и номенклатурным окончаниям. Все лиганды были разбиты на 14 групп по типу лиганда, среди которых наиболее представленными оказались неорганические лиганды (Таблица 2).

Таблица 2. Классификация лигандов в SitEx

Наименование Кол-во записей

Ионы металлов 2917

Анионы кислот 2401

Органические кислоты 595

Нуклеотидфосфаты 799

Фосфосахара 308

Белки 73

Аминокислоты и их соединения 164

Коферменты 89

Спирты и их производные 665

Атомы и неорганические соединения 351

Амины и амиды 1112

Порфирины 59

Более мелкие классы (алкалоиды, кетоны, пигменты и прочее) 958

Неизвестный лиганд 396

Страница Exon BLAST Search предназначена для осуществления поиска по БД по сходству нуклеотидных или аминокислотных последовательностей в формате FASTA с использованием программы BLAST. Для осуществления такого поиска была проведена индексация аминокислотных и нуклеотидных последовательностей из БД SitEx с использованием инструментов программы BLAST.

Страница 3D Exon Search предоставляет интерфейс для загрузки файла в формате PDB с указанием полипептидной цепи анализируемого белка. Для осуществления поиска по базе SitEx, основанного на сходстве пространственных структур анализируемого белка и фрагментов белков, кодируемых отдельными экзонами, вызывается программа 3DPDBScan. Результатом поиска является интерактивная таблица с идентификаторами экзонов БД SitEx, содержащая стандартные показатели качества структурного выравнивания. Предоставляется возможность перехода на другие страницы интерфейса для получения детальной информации об экзонах и функциональных сайтах, а также возможность графической визуализации совмещенных в результате выравнивания пространственных структур с последующим сохранением в формате PDB.

Глава Л ( татмстичсский яна.тиз особенностей кодирования функциональных сайтов белков в теня* »кариот.

Исследование распределений Atún jkjoho*. кодирующих и некодирующих функциональные сайты

Для сравнительного анализа распределений длин экзонов. кодирующих и некодируютцнх функщон.иьиыс сайты, было создано две соответствующих выборки зкзонов (ЭКФС и ЭНФС) с использованием ЬД SilEx (рис. 5).

2S 00%

20 00%

« 1S00% о

« 10 00% 9.00% 0 00%

Рисунок 5 Расп/ннУеленим О.тн экзонов ui выборок ЭНФС' и ЭКФС.

длиия »зона, пн

Выборка ЭКФС включала в себя 6444 экзоиа. а выборка ЭНФС - 10679 экзонов из 2021 гена. Статистический анализ с помощью двух раенределевнй длин ткзонов из выборок ЭКФС и ЭНФС показал их значимое различие (х''~582.8. Р-0.01) ПрИ этом средняя jvuma экзонов из ЭКФС превышала среднюю длину экзонов из ЭНФС. С'р;дние длины жзонов составили ~I59 ii.h. и =137 п.н.. соответственно. Согласно критерию Манна-Уитии. средние значения длин зкзонов из этих выборок отличатся со значимостью р-10"*'. Таким образом. длина ЭКФС. н среднем значимо превышает длину ЭНФС

Исследование разрывности функционаиных сайтов

Расчет коэффициентов разрывноегм ФС показал, что 27% всех сайтов кодируются одним -леюном н еще 37% кодируются сближенными в последовательности экзонами (CoefE ■ 0), ири тгтом 95.5% сайтов разрывны по аминокислотной последовательности (Сое ("Л > 0). Достоверно покатано, что коэффициенты разрывности сайтов коррелируют между собой (рМ) 4. р<0.05).

Для статистической проверки гипотезы о том. что разрывность функциональных сайтов по зкзоиам значимо меньше, чем ожидается по случайным причинам, оценнналост ожидаемая и наблюдаемая представленное п. iранни зкзонов в области функционального сайта при их коргирон.ижи на аминокислотную последовательность белка В данном случае в качестве области

И

функциональною сайта рассматривался фрагмент аминокислотой последовательнее™. ограниченный крайними аминокислотными остатками «К (рис. 7).

Ожидаемое распределение количества границ -«»нов в области функциональном сайта рассчитывалось методом 10-кратного повторения случайного выбора позиций границ экэонов в последовагельности Распределения наблюдаемого я ожидаемого количества зкзонов сравнивались с номоиыо критерия х* (Г=22.4. р<0.01. <И"б).

область функционального сайта

экз синая структура кодирующего гена

аминокислоты функционального сайта

Рисунок 7. Область ФС. отображенная на jkjohhoü структуре кодирующею гена

Показано, что наблюдаемое количество »кзонов. кодирующих фратмеи м аминокислотных тослсдовательностсй. соответствующих области функциональных сайтов, в среднем значимо меньше количества »кзонов, ожидаемых по случайном причинам (значение статистики Манна-Уитии U 52988.S; N, -127; N:-390; р«0.01). Л патетичный анализ проводился для отдельно взятых трупп функциональных сайтов (сайтов связывания аминов, спиртов, органических кислот, сложных органический соединений), наиболее представленных в БД SilEx Во всех случаях наблюдаемое количество зкзопов. кодирующих область функционального сай га, было значимо меньше ожидаемого.

На основе проведенного анализа можно заключит!,, что функциональные сайты белков статистически чаще кодируются одним или близко расположенными эктонами

Анализ частот к>донов во фрагментах ДНК. кодирующих оминокистпише остатки функциональных сайтов »et коя

В настоящее время остается актуальной задача изучения влияния кодонного состава на .ффечгивность трансляции белков как у прокариот, так и у эукарнш (Zhou ei al„ 2013) Ятя анализа частот колонов в фрагментах ДНК. кодирующих и не кодирующих функциональные сайты белков, использовались данные из БД SitEx На первом шаге анализа было построено распределение встречаемости аминокислот в рассматриваемых функциональных сайтах белков. Среди наиболее часто встречающихся оказались гидрофильные аминокислоты, предпочтите.|ыю располагающиеся на поверхности белков (гнети дин. цистам, тирозин и др.). что характерно для функциональных сайгов (Liao el al„ 2013: BeitsÄRusse!. 2003).

Известно, что частоты встречаемости колонов в последовательностях ДНК вблизи I ранни экзонов и в остальной части кодирующей последовательности отличаются. В частости, тго связывают с он налами сплайсинга, которые обуславливают боштос содержание пурине» (Gelfand. 1984). Однако существуют работы, в которых авторы выдвигают гипотезу о том. что в таких районах отбор может быть направлен также на нуклеотиды А и Г (Parmley el al.. 2006). Можно предположить, что на колонный состав могут влиять не только сигналы сплайсинга, но и другие фок горы, такие как кодирование функциональных сайтов. Для проверки данной гипотезы была подсчитана относительная частота встречаемости различных колонов как в составе функциональною сайта, так и на ■ раницах экзонов. Для расчета частоты кодонов вблизи !раниц экзонов рассматривали участки, офаниченные толтко пятью кодонами на S'-конце и 3*-KOIH1C экзона. Для составления контрольного распределения также рассматривали частоту встречаемости кодонов во фрагментах последовательности экзона. в которых исключены пограничные районы.

Встречаемость кодонов анализировашчь с помощью метода матриц 2М с использованием критерия х:. При этом сравнение частот встречаемости колонов в ДНК проводилось для каждой из 20 канонических аминокислот, за исключением метионина и триптофана, которые кодируются только единственным колоном Было показано, что участки ДНК. кодирующие и не кодирующие функциональные сайты в районах 5'-концов экзонов в геном« человека отличается друг от друга по распределению частот встречаемости кодеков, кодирующих аспараттш. кролик. глутамин. I .ту гаминовую кисчоту и цнегеин (рис. 8).

Данные отличия MOiyt быть объяснены наблюдаемой повышенной частотой представленности аденина и тимнна в третьей позиции кодонов. кодирующих перечисленные выше аминокислоты В частности, полученный результат согласуется с гипотезой Parmley об эволюционном отборе, направленном на нуклеотиды А и Т вблизи 5'-конца зкзонсв. Кроме того, на 5'-конце экзонов в участках, кодирующих функциональные сайты, наблюдалась повышенная частота встречаемости следующих колонов, содержащих нуклеотиды А, Т в третьей позиции: ТТГ (Phc), ATT (Ik). AAA (Lys). ~ГД. TO (Leu). АСА. ACT (Thr). TAI (Тут). GCI (üly). CGA. CGI (Arg). AGI, ГСЬ ТСД (Ser). >ro может быть следствием влияния генетических сигналов <н частности, сайтов сплайсинга) и кода функциональных сайтов друг на друга.

частота «одонов

ллс

тос ам

алт

тот

ОАО

ела сст ссо ссс

ССА CAA

Рисунок 8. Встречаемость кодонов. кодирующих аспарагш*. пролин, глутамин. глутаминовую кислоту и цистеин в рагчичных участках поагедоватечьности I участок последовательности на 5 '-конце ж юна, ограниченный пятью кодонами. II часть функционального сайта, кодируемая на 5 -конце эк-юна. ограниченном пятью кодонами. Ill часть caima, кодируемая между концами экюна. ограниченными пятью кодонами А соответствует частотаи кодонов. содержащих в третьей позиции А им Т. с наибольшей представленностью этих кодонов в рассматриваемом фрагменте ДНК; В - соответствует кодонам. кодирующим пролин. можно видеть, что наибольшая частота соответствует кодону ССА; С соответствует ксдону CAA. доля которого при кодировании глутамина возрастает ta счет снижения встречаемости другого кодона С AG.

Частота фаз экзонов в функциональных сайтах на границе жюнов

Д.|и анализа частот встречаемости различных фат -»стонов, имеющих в крайней 5'-позиции кодон. кодирующий аминокислоту функционального сайта, была создана выборка экзонов из последовательностей ichob 14 позвоночных оргаиизмон. представленных в БД Sitlx Была подсчитана встречаемость фаз 0. I. 2 в колонах на З'-коице жюнов. которые кодируют аминокислоту фу нкционального сайта (I). и остальных экзонов (II). Всего в анализе участвовало 40 000 экзонов. 1867 из которых содержат на 5'-концс жзона кодон. кодирующий аминокислоту функционального сайта.

Сравнение частот встречаемости фазы 0 между этими двумя 1руппами с помощью парного критерия Вилкэксона показало статистически значимое

14

в

с

ii at

различие между распределениями частот для фаз 0 и суммарных частот остальных <р^8.3* 10* с учетом пои рамки Ьонфсрронн (2-4.86) и р<8.3*104 (7.=4.47) соответственно). При 31 ом среднее и медиана в 1 группе для фазы 0 были ниже, а

для фазы 1 и 2 - выше. Частоты всгрсчаемосги различных фаз в выборках нрсдс1авлены на рисунке 9.

Ранее было показано <\'1Ьгапо\$к| с! а!.. 2005). что фаза 0 более часш встречается среди «зоной, имеющих более древнее происхождение, в связи с явлением перетасовки -мезонов как одним из основных путей возникновения последовательное гей. кодирующих белки с новыми функциями, а фазы 1 и 2 чаще встрсчакмся среди «зоной, имеющих более потдиес возникновение 11а основе этого можно предположить. чго существуют 01раничсння на перетасовку жзонон. которые кодирукгг

функциональные сайты белка.

0.7 06 05 04

оз 02 0.1 о

О 142

фиы »юное м> 5' (Ми*

Рисунок 9. Распределение средней частоты ¡/ни среди зкчонов. кодирующих ачинокислоту

функционального сайта на 3'-конце (!) и некодирующих ее III).

вывода

I Создана база данных SilKx. содержащая разметку в белковых и геномных последовательностях зукарнот границ -мезонов, доменов, функциональных сайтов белков и олнонуклеотидных полиморфизмов. 1>аза данных итерирована с протраммами »LAST и 30P0BScan для поиска участков в первичных и пространственных cipyiriypax белков, имеющих сходство с фршмешами белка, кодируемыми одним экзоном в базе данных SitKx.

7 Иш-рныс иоюшмо. чтх> функциональные сайты белков имеют тенденцию к кодированию о;(|1им или близко расположенными в последовательное!и гена 'Лсзонами. При этом значение показателя разрывности функциональных сайтон по «зонам значимо меньше, чем ожидаемое по случайным причинам

3 Впервые показано, что длина зкзонов, кодирующих функциональные сайты, в среднем значимо превышает длину зкзонов. некодирующих функциональные сайты.

4. Впервые показано, что распределение частот представленности различных фаз колонов, расположенных в районах 5'-концон зкзонов. статистически значимо отличаются между колонами. соответствующими аминокислотным остаткам в позициях функционального сайта белка и не соответствующими им. При этом, оказалось, «по фаза 0 кодонов. кодирующих аминокислот в позициях функциональных сайтов белков, представлена значимо реже по сравнению с колонами, не соответствующими аминокислотным остатки* функциональных сайгов. что может свидетельствовать об шраничении перетасовки зкзонов. при которой происходит разрыв функциональных сайтов белка

15

5. Впервые показано отличие частот использования кодонов в участках ДНК, кодирующих функциональные сайты, от участков, не кодируюпдах функциональные сайты, в районах 5'-концов экзонов в геноме человека. Статистически значимые отличия были получены для кодонов, кодирующих часто встречающиеся в функциональных сайтах аспарагин, пролин, глутамин, глутаминовую кислоту и цистеин. Отличия были обусловлены повышенной частотой встречаемости аденина и тимина в третьей позиции кодонов в участках ДНК, кодирующих функциональные сайты на 5'-конце экзонов. Полученные закономерности могут лежать в основе механизма интерференции генетических сигналов (в частности, сайтов сплайсинга) и кода функциональных сайтов.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в рецензируемых журналах:

1. Орлов Ю.Л., Брагин А.О., Медведева И.В.. Гунбин К.В., Деменков П.С., Вишневский О.В., Левицкий В.Г., Ощепков Д.Ю., Подколодный Н.Л., Афонников Д.А., Гроссе И., Колчанов Н.А. ICGenomics: программный комплекс анализа символьных последовательностей геномики // Вавиловский журнал генетики и селекции. - 2012. -Том 16, 4/1. - с. 732-741.

2. Medvedeva I.V.. Demenkov P.S., Kolchanov N.A„ Ivanisenko VA. SitEx: a computer system for analysis of projections of protein functional sites on eukaryotic genes // Nucleic Acids Res. - 2012. - Vol. 40(D1) - p. D278-283.

3- Медведева И.В.. Деменков П.С., Иванисенко B.A.. Анализ распределения аденозин-фосфат связывающих сайтов белков на экзонной структуре гена // Информационный Вестник ВОГиС. - 2009. - Том 13, № 1.-е. 122-127.

Свидетельства:

Медведева И.В.. Деменков П.С., Иванисенко В.А. (2013) Свидетельство о государственной регистрации базы данных № 2013621254. Позиции аминокислот функциональных сайтов белков в экзонной структуре кодирующих генов (СайтЭксУРгйеш functional sites positions in exon structure of the coding genes (SitEx).

Тезисы конференций:

1. Medvedeva I.V.. Demenkov P.S., Ivanisenko V.A. Influences of protein functional site encoding features on protein evolution in Eukaryota. // Abstracts of the Eighth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2012), Novosibirsk, Russia, June 25- 29, 2012, p.209.

2. Medvedeva 1.У.. Demenkov P.S., Ivanisenko V. A. Computer system SitEx for analyzing protein functional sites in eukaryotic gene structure. // Abstracts of the Seventh International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2010), Novosibirsk, Russia, June 20- 27, 2010, p. 182.

3. Medvedeva I.V.. Demenkov P.S., Ivanisenko V. A. Protein functional site projection on exon structure of gene. // Abstracts of the Sixth International

Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2008), Novosibirsk, Russia, June 22- 28, 2008, p.159.

4. Medvedeva ГЛ ., Demenkov P. S., Ivanisenko V. A. (2007) Analysis of protein functional site distribution on gene structure. Proceedings of the 2007 international conference on bioinformatics and computational biology (BIOCOMP'O?) Vol 2 pp. 452-455.

5. Медведева И.В. Анализ картирования функциональных сайтов белков на зкзонной структуре гена. Материалы докладов XIV Международной конференции студентов, аспирантов и молодых ученых «Ломоносов». Москва. 2007. стр. 58.

6. Медведева И.В. Анализ распределения просайтов функциональных сайтов в пространственных структурах белков. Материалы XL1V Международной студенческой конференции «Студент и научно-технический прогресс». Биология. Новосибирск. 2006. стр. 146.

Подписано к печати 11.09.2014 г. Формат бумаги 60 х 90 1/16. Печ. л. 1. Уч.изд.л. 0,7 Тираж 110 экз. Заказ 140

Отпечатано на полиграфической базе ИЦиГ СО РАН 630090, Новосибирск, ир. акад. Лаврентьева. 10