Бесплатный автореферат и диссертация по биологии на тему
Интерактом белков, кодируемых генами хромосомы 18 человека
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Интерактом белков, кодируемых генами хромосомы 18 человека"

На правах рукописи

О' '

ПОВЕРЕННАЯ Екатерина Владимировна

ИНТЕРАКТОМ БЕЛКОВ, КОДИРУЕМЫХ ГЕНАМИ ХРОМОСОМЫ 18 ЧЕЛОВЕКА

03.01.09 - математическая биология, биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

2 6 СЕН 2013

Москва-2013 г.

005533336

Работа выполнена в Федеральном государственном бюджетном учреждении «Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича» Российской академии медицинских наук.

Научный руководитель: доктор биологических наук,

член-корреспондент РАМН Лисица Андрей Валерьевич

Баранова Анна Вячеславовна доктор биологических наук, ФГБУ «Медико-генетический научный центр» РАМН, главный научный'сотрудник

Брускин Сергей Александрович кандидат биологических наук, ФГБУН «Институт общей генетики им. Н.И. Вавилова» РАН, заведующий лабораторией

ФГБУН «Научно-исследовательский институт физико-химической медицины» Федерального медико-биологического агентства

Защита состоится «17» октября 2013 года в 11:00 часов на заседании Диссертационного совета Д 001.010.01 при Федеральном государственном бюджетном учреждении «Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича» Российской академии медицинских наук (ФГБУ «ИБМХ» РАМН) по адресу: 119121, г. Москва, Погодинская ул., д. 10, стр. 8.

С диссертацией можно ознакомиться в библиотеке ФГБУ «ИБМХ» РАМН. Автореферат разослан « /6 » сентября 2013 г.

Официальные оппоненты:

Ведущая организация:

Ученый секретарь Диссертационного совета, кандидат химических наук

Е.А. Карпова

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ 1.1. Актуальность проблемы, цель и задачи

Результаты завершенной в 2001 году международной программы «Геном человека» [Venter et al., 2001] позволили перейти к более масштабным задачам инвентаризации белков и взаимодействий между ними. Для реализации международного проекта «Протеом человека» [The big orne, 2008] был принят хромосомоцентричный подход, согласно которому каждая страна-участница исследует конкретную хромосому человека: корейские ученые сконцентрировали усилия на работе с хромосомой 13, исследователи из США - на хромосоме 17 и т.д. Россия выбрала белки, кодируемые генами хромосомы 18 [Ponomarenko et al., 2012]. Искусственное разделение объектов исследования по хромосомам позволяет детально проанализировать массив белков человека, который по предварительным расчетам включает от 2 млн до 1 млрд протеоформ [Archakov et al., 2009, Kelleher, 2012].

Важнейшей задачей проекта «Протеом человека» является анализ белок-белковых взаимодействий (ББВ). Построение интерактомных сетей (карт ББВ) является способом изучения молекулярных процессов, нарушение которых приводит к развитию заболеваний. Опубликованы описания интерактомных карт заболеваний, к примеру, при ишемической болезни сердца [Ren&Liu, 2012] или колоректальном раке [Sanz-Rampona et al., 2012]. Изучение топологии сети при развитии патологии дает возможность выявлять потенциальные мишени для создания новых лекарств, в том числе для лечения генетических и вирусных заболеваний [Rodriguez-Soca et al., 2010].

Несмотря на фундаментальное значение белковых взаимодействий, данные об интерактоме человека противоречивы и неполны [Lehne&Schlitt, 2009]. Для выявления сведений о ББВ преимущественно используют две группы экспериментальных методов - двугибридную дрожжевую систему и аффинную пробоподготовку в сочетании с масс-спектрометрией (АП-МС). Оба метода характеризуются высокой производительностью, но низкой достоверностью выявленных взаимодействий. Ограничения высокопроизводительных экспериментальных методов возникают из-за отсутствия возможности измерения термодинамических параметров комплексообразования [Bai et al., 2011].

Биоинформатические инструменты, разрабатываемые для анализа результатов интерактомных экспериментов, позволяют повысить уровень достоверности выявления ББВ, т.е. оценить вероятность определения ложноположительных взаимодействий. Достоверность повышается за счет сопоставления полученных сведений с протеомной и геномной информацией. Использование вычислительных методов позволяет выявлять новые взаимодействия, в том числе, с участием белков с неизвестной функцией.

1

Суть методов вычислительной интерактомики заключается в корректном совмещении множества противоречивых данных. Противоречия являются следствием не только проблем экспериментальных методов, но и тем, что сеть ББВ динамично изменяется в процессе функционирования клетки. Изменения накладываются на высокую сложность объекта исследования: интерактом человека, по приблизительным оценкам, включает от 300 до 650 тысяч различных взаимодействий [Stumpfet al.,2008],

Хромосомоцентричный подход к анализу интерактома позволяет ограничить масштаб белковой сети, и провести подробное исследование состава карты ББВ. За счет хромосомоцентричного подхода повышается вероятность выявления новых, ранее не известных ББВ.

Обработка массива экспериментов, выполненных методом АП-МС, является одним из способов получения сведений о белковых взаимодействиях. В данной работе был использован метод виртуальной ко-преципитации (ВКП) [Zhang et al., 2010]. Этот метод позволяет выявлять ББВ по результатам масс-спектрометрических экспериментов, хранящихся в интернет-репозитории Global Proteome Machine Database (GPMdb). Принцип метода виртуальной ко-преципитации заключается в определении частоты совместной встречаемости белков в масс-спектрометрических экспериментах. Физические взаимодействия между белками обеспечивают их совместное определение во многих экспериментах, выполненных методом АП-МС, что позволяет отличить их от функциональных взаимосвязей.

Цель работы: выявление белковых взаимодействий для продуктов генов хромосомы 18 человека с помощью автоматической обработки результатов масс-спектрометрических экспериментов методом виртуальной ко-преципитации (ВКП). В работе были поставлены задачи:

1. Обосновать параметры метода виртуальной ко-преципитации для выявления белок-белковых взаимодействий путем обработки результатов масс-спектрометрических экспериментов.

2. Оценить достоверность метода и исследовать его применимость на примере белок-белковых комплексов и сетей функциональных взаимодействий.

3. Применить метод виртуальной ко-преципитации для белков, кодируемых генами хромосомы 18 человека, и охарактеризовать полученные результаты с учетом молекулярной функции белков.

4. Сопоставить результаты виртуальной ко-преципитации с известными данными о белок-белковых взаимодействиях, определить узловые1 белки в составе интерактома хромосомы 18 человека.

1.2. Положения, выносимые на защиту

1. Метод виртуальной ко-преципитации позволяет выявлять белок-белковые взаимодействия, при этом достоверность определяемых взаимодействий повышается с увеличением объема данных, получаемых масс-спектрометрическими методами.

2. Белковые взаимодействия, устанавливаемые методом виртуальной ко-преципитации, обеспечивают выявление функциональных различий между формами белков, образующихся в результате альтернативного сплайсинга.

3. Хромосомоцентричный подход применим для создания интерактомной карты взаимодействий между белками, кодируемыми генами одной хромосомы. В составе интерактомной карты, построенной на основе результатов виртуальной ко-преципитации, определяются кластеры, сходных по функции белков.

1.3. Научная новизна и практическая значимость

Впервые хромосомоцентричный подход применен для исследования интерактома человека. Среди полученных сведений о взаимодействиях белков, кодируемых генами хромосомы 18 человека, впервые обнаружены данные о ББВ для серпина В7. В работе также показано, что сплайс-формы одного белка взаимодействуют с разными партнерами, т.е. имеют разные интерактомные профили.

Построена интерактомная карта хромосомы. На карте выделены группы взаимосвязанных белков, представляющих собой одно семейство (серпины и кадгерины), или выполняющих определенную молекулярную функцию в организме, например формирующие транскрипционный комплекс.

Практическая значимость работы заключается в повышения эффективности использования данных масс-спектрометрических измерений, выполненных в разных лабораториях. Полученные ири выполнении работы результаты обеспечивают переход от накопления противоречивых данных, сгенерированных с применением высокопроизводительных постгеномных методов, к обоснованным научным гипотезам и их дальнейшей биохимической проверке. Результаты предназначены для использования при рациональном планировании научно-исследовательской работы, направленной на выявление перспективных мишеней для экспериментальной интерактомики.

' Узловыми (в англоязычной литературе «1шЬ») считаются белки, отличающиеся повышенным количеством белковых взаимодействий, обеспечивающие участие данного белка в различных биологических процессах

3

1.4. Апробация работы

Основные положения диссертационной работы были представлены в виде устного доклада на 11-м Ежегодном всемирном конгрессе Международной организации «Протеом человека» (HUPO 11-th Annual World Congress, Бостон, 2012). Постерные сообщения представлялись на 6-м азиатском конгрессе Международной организации «Протеом человека» (AOHUPO 6th Congress, Пекин, 2012); на научном конгрессе «Протеомный форум» (Proteom forum, Берлин, 2013); на XX Российском национальном конгрессе «Человек и Лекарство» (Москва, 2013); а также на конгрессе Федерации европейских биохимических обществ 2013 «Биологические механизмы» (FEBS congress, St.Petersburg, 2013).

1.5. Публикации

Материалы диссертационной работы отражены в 13 публикациях: в 5 статьях и 8 публикациях в материалах научных конференций.

1.6. Объем и структура диссертации

Диссертационная работа изложена на 155 страницах машинописного текста; содержит 10 таблиц и 25 рисунков. Состоит из глав: «Введение», «Обзор литературы», «Материалы и методы», «Результаты и обсуждение», «Заключение», «Выводы», «Список литературы»; включает 3 приложения.

2. МАТЕРИАЛЫ И МЕТОДЫ ИССЛЕДОВАНИЯ

2.1. Репозиторий GPMdb

Данные масс-спектрометрических экспериментов, в т.ч. полученные в результате использования метода АП-МС, загружали из протеомного репозитория GPMdb в формате SQL с ftp-сайта по адресу ftp://ftp.gpmdb.orp/gDmdb/tables/gpmdb.sql и размещали в реляционной базе данных MySQL v.5.5. На момент загрузки (январь 2013 года) в локальной версии GPMdb содержались 214 256 масс-спектрометрических экспериментов. Загруженные данные представляли собой коды доступа белков (в формате Ensemble) и последовательности идентифицированных пептидов.

2.2. Аминокислотные последовательности белков человека и данные о контаминантах

Сведения об аминокислотной последовательности канонических2 и сплайс-форм белков человека были загружены в виде файлов в формате fasta с ftp-сайта UniProtKB по адресу ftp://ftp.uniprot.org/pub/database_/uniprot sprot.fasta и

2 Здесь и далее под «канонической» формой белка понимается наиболее полный вариант последовательности,

включающий трансляцию всех экзонов в составе гена. Термин принят в международном ресурсе белков ишРпиКЕ!.

4

ftp://ftp.uniprot.org/pub/database /uniprot sprot iso.fasta. На апрель 2013 года в базе данных UniProtKB имелись сведения о 38 692 белках человека, представленных 20 525 каноническими последовательностями и 18 167 изоформами.

Перечень кодов доступа (АС) для белков, кодируемых генами хромосомы 18 человека, загружали из ресурса UniProtKB в виде текстового файла http://www.uniprot.org/docs/humchrl8.txt. В 15-м релизе UniProtKB (апрель 2013) было опубликовано 277 белок-кодирующих гена, локализованных на хромосоме 18 человека.

Определение потенциальных контаминантов среди белковых партнеров осуществляли с использованием сведений об их встречаемости в АП-МС экспериментах, путем запроса по коду доступа интернет-ресурса CRAPOME (http://crapome.org/?q=wk 1 1 search).

2.3. Контрольные наборы данных

Для исследования возможностей метода виртуальной ко-преципитации использовали опубликованные в литературе экспериментально установленные данные трех наборов ББВ. Физические взаимодействия в составе белковых комплексов были представлены 20 белками-партнерами гистонового белка HIST4H4 и использовались в качестве контроля в работе [Zhang et al., 2010]. Второй набор физических ББВ содержал взаимодействия в составе коровой части (20S) белкового комплекса 26S протеасомы, состоящего из 8 видов субъединиц аир [Zwickl et al., 1999]. Третий контрольный набор включал функциональные взаимодействия белков, принимающих участие в процессе ремоделирования хроматина [Sardiu et al., 2012].

2.4. Интерактомные ресурсы

Сведения из интерактомных баз данных (табл.2) использовали для сопоставления с результатами виртуальной ко-преципитации.

Таблица 2. Интерактомные базы данных.

Название ресурса Адрес ресурса Версия Формат данных

BioGRID httnV/thebioerid.ora/ 3.2 tab файл

HPRD httD://www.hDrd.ore 9 tab файл

IntACT htt p ://www. ebi.ac.uk/intact 4.0.2 xml файл

MINT httn://m¡nt.bio.uniroma2.it/mint 201210J26 tab файл

STRING httD://strins-db.ore/ 9.1 xml файл

2.5. Подготовка входных данных

Формирование входных данных осуществляли в два этапа: удаление дубликатов экспериментов в локальной версии GPMdb и повторная идентификация белков по

5

пептидам для каждого эксперимента. Подготовленные данные вносили в таблицу в локальной версии базы данных.

Идентификацию белков проводили для каждого эксперимента путем сравнения пептидов с последовательностями аминокислотных остатков, загруженными из базы данных ишРгоИСВ. Отбирали эксперименты в том случае, если не менее 90% пептидов относились к белкам человека. Белок считался идентифицированным при условии нахождения совпадения последовательности не менее чем с двумя уникальными пептидами.

Для белков рассчитывали покрытие (соу) как отношение длины последовательности белка к количеству аминокислотных остатков, входящих в состав идентифицированных пептидов. Значение соу определяли вычислением покрытия аминокислотной последовательности белка пептидами. Достоверность идентификации белка (ее) рассчитывали как сумму оценок достоверности идентификаций к этому белку пептидов.

2.6. Метод виртуальной ко-преципитации (ВКП)

Метод заключается в выявлении белков, совместно идентифицированных в наборе экспериментов, выполненных методом аффинной очистки в сочетании с масс-спектрометрией. В основе виртуальной ко-преципитации (ВКП) лежит гипотеза, что взаимодействующие белки должны чаще идентифицироваться совместно в масс-спектрометрических экспериментах, чем не взаимодействующие. На рисунке 1 приведена блок-схема метода ВКП.

Метод ВКП применялся для каждого белка-«наживки». Для «наживки» из локальной базы данных отбирали те эксперименты, характеристики которых указывали на использование метода АП-МС. Такими характеристиками эксперимента являлись: количество идентифицированных белков (Бг) и достоверность идентификации белка-«наживки» по набору пептидов (соу и ее). Для каждого эксперимента рассчитывали коэффициент разброса Ргс^в, отражающий дисперсию молекулярных масс идентифицированных белков:

где А] - молекулярная масса белка г, идентифицируемого в эксперименте; - среднее геометрическое отклонение молекулярных масс, рассчитанное по всем идентифицированным в эксперименте белкам. РгоОіз применяли, чтобы исключить из рассмотрения эксперименты, выполненные путем разделения белков в одномерном геле

(1)

(ЙОЗ-РАСЕ).

Рисунок 1. Блок-схема метода виртуальной ко-преципитации (ВКП), используемого для выявления белковых взаимодействий. Применяемые в процессе работы алгоритма фильтры обозначены: ъг - количество белков в эксперименте; эс - оценка достоверности идентификации; соу - степень покрытия последовательности белка пептидами; РгоО^ - оценка разброса молекулярных масс белков, идентифицированных в одном эксперименте. АС - код доступа белка, ПЗ - пороговые значения фильтров, КБ - ко-встречающиеся белки.

Пороговые значения для характеристик sz, se, cov и ProDis определили эмпирически (см. раздел Основные результаты). При соответствии пороговым значениям, белки эксперимента включали в массив ко-встречающихся белков (КБ). Для каждого белка к из массива КБ рассчитывали частоту встречаемости (FREQ) в масс-спектрометрических экспериментах, соответствующих белку-«наживке»:

FREQk = (2)

где Ni - количество экспериментов, содержащих белок-«добычу», а N - общее количество экспериментов для белка «добычи».

Если FREQ превышало установленное пороговое значение, то белок-«добычу» включали в список потенциальных партнеров 'PREYS' (см. рис.1).

Описанный выше фрагмент алгоритма был реализован в виде отдельной подпрограммы виртуальной ко-преципитации (ВКП). В методе ВКП эта подпрограмма вызывается дважды, сначала для целевого белка-«наживки», а затем поочередно для каждого белка «добычи» (список 'PREYS'). В случае определения наличия белка-«наживки» среди партнеров белка «добычи», принимали, что между «наживкой» и «добычей» осуществляется взаимодействие.

2.7. Характеристика взаимодействий, выявленных методом ВКП

В результате применения метода ВКП для каждого белкового продукта хромосомы 18 человека был сформирован интеракгомный профиль (ИП), представляющий собой список белков-партнеров. ИП загружали в веб-сервис GOrilla (http://cbl-gorilla.cs.technion.ac.il/) и получали для каждого белка аннотацию в терминах Gene Ontology (GO). С использованием полученной аннотацией белки-«наживки» характеризовали в соответствии с категориями «участие в биологическом процессе», «молекулярная функция» и «внутриклеточная локализация».

В составе сети ББВ выделяли кластеры. Для этого силу взаимосвязи (Sim) между двумя белками X и Y рассчитывали по формуле:

"imfXYI- 1ип«пигта И1»

Sim (X, Y) - т!п(|ип(х)Мип(у)|) (-3),

где ИП - интерактомный профиль белка. В кластер объединяли белки, для которых значения Sim превышало 0,5.

Сведения об интерактоме представляли в виде списка пар взаимодействующих белков. Визуализацию попарных взаимодействий в виде интерактомных сетей осуществляли в программе Cytoscape v.2.8.3.

Обработку интерактомных профилей целевых белков проводили с применением геноцентричной базы знаний (ГЦБЗ) (www.kbl 8.ni). Для каждого целевого белка

загружали количество партнеров, полученных методом ВКП, а также доступных в интерактомных ресурсах (табл. 2). Кроме того, из базы данных CRAPOME в ГЦБЗ загружали сведения о типовых контаминантах, наблюдающихся при использовании АП-МС.

2.8. Программная реализация алгоритмов

Используемые алгоритмы реализованы с использованием интерпретатора python v.2.7.7. При работе с таблицами СУБД MySQL v.5.5.25a, использовали встроенный язык разработки pl/sql, позволяющий быстро индексировать большой объем данных.

3. ОСНОВНЫЕ РЕЗУЛЬТАТЫ

3.1. Определение параметров метода внртуалыюй ко-прецнпнтацин

Метод виртуальной ко-преципитации применяли для обработки результатов масс-спектрометрических экспериментов, размещенных в протеомном репозитории GPMdb. В исходных данных GPMdb присутствовала вырожденность: один и тот же набор идентифицированных пептидов мог соответствовать нескольким белкам. В связи с этим было проведены картирование пептидов, содержащихся в GPMdb, на последовательности аминокислотных остатков белков, указанные в базе данных UniProtKB. Из 4,5 млн пептидов, идентифицированных в 214 256 протеомных экспериментах, почти треть (1,3 млн) пептидов соответствовали белкам человека. Итоговый набор входных данных состоял из 50 815 экспериментов, содержащих суммарно 19 539 видов белков человека.

Поскольку репозиторий GPMdb вырос в объеме в несколько раз со времени разработки метода ВКП (2010 год), то задачей стало определение пороговых значений для параметров метода. Рассматривали параметры, определяющие принадлежность эксперимента к АП-МС: количество идентифицированных в эксперименте белков (sz) и коэффициент ProDis; достоверность идентификации целевого белка в эксперименте (cov и se), а также уровень частоты встречаемости белков (FREQ) в результатах экспериментов.

В среднем методом АП-МС идентифицируют 200-300 белков [Malovannaya et al., 2010]. Для 679 экспериментов в описании которых явным образом был указан метод АП-МС, среднее количество идентифицированных белков составило 148. Однако, большинство содержащихся в GPMdb экспериментов не имеют описания (38 950), либо в описании нет указания на АП-МС (3 367), или же содержится информация о других масс-спектрометрических методах (7 819). Например, термин «shotgun» указывает, что аффинная пробоподготовка, скорее всего, не применялась.

Для отбора из массива масс-спектрометрических экспериментов тех, в которых применялась аффинная пробоподготовка, сравнивали количество белков в экспериментах (sz) с различными описаниями методической части (рис. 2А). Видно, что наибольшая вероятность выявления эксперимента, выполненного методом АП-МС, реализуется при значениях sz от 5 до 250 идентифицированных белков.

В установленный диапазон значений sz попадает большое количество экспериментов, в которых белки идентифицировали в полосах одномерного геля. Чтобы отличить эксперименты с разделением в геле ог экспериментов с использованием аффинной пробоподготовки, рассчитывали коэффициент разброса ProDis (Protein Dispersion).

Расчет коэффициента ProDis основан на предположении, что во взаимодействиях могут принимать участие белки с разными молекулярными массами, тогда как при разделении в геле в вырезанной полосе могут содержаться белки примерно одинаковой массы. Следовательно, значение ProDis для экспериментов, в которых не проводили фракционирование в геле, должно соответствовать величине, рассчитанной для набора случайных белков. Пороговое значение определили путем анализа значений ProDis для выборок различных размеров, многократно сгенерированных случайным образом на основе аминокислотных последовательностей белков человека. На рисунке 2Б видно, что минимальная величина среднего значения ProDis равна 2,1 и существенно не меняется при увеличении количества белков в эксперименте.

Отбор проводили не только с использованием характеристик экспериментов в целом (sz и ProDis), но и по параметрам se и cov, которые отражают достоверность идентификации белка-«наживки». Эксперименты, в составе которых белок-«наживка» обладал невысокой достоверностью, отсеивали. Пороговые значения для отсеивания определяли, построив корреляционную зависимость для данных, приведенных на рисунке 2В.

На рисунке 2В показано, что между величинам cov и se наблюдается значимая корреляция (г2 = 0,8). Уравнение линейной регрессии имело вид se = 0,54 х cov - 9,7. Область значений, для которых отсутствует корреляция, позволяет определить пороговую величину se = 9,5 (точка отмечена на рис. стрелкой). Подставляя в уравнение регрессии sc=9,5 получили, что пороговое значение для cov равно ~40 аминокислотных остатков или 12% при нормировании на среднюю длину последовательности. С использованием найденных пороговых значений в среднем отфильтровывалось до 16% экспериментов, не соответствующих принятым в данной работе критериям достоверности идентификации «наживок».

о 20

* е

£ =

I |

V© 5 О В.

АП-МС

Ш Интерактомные В Другие Ш Неизвестные

Шгшг

о«оо"^оюо«ооооооо —, —, _ —' м м п т 1л

2,4 2,3

1 2,2

2,1 2 1,9 1,8

А

А А

А А

6 10 15 20 50 100 150 200 250

40 35 30 25 20 15 10* 5 0

^¡Ш^тЖ

о

80

100

120

20

30 40

50

Рисунок 2. Определение пороговых значений параметров метода ВКП. Распределение количества идентифицированных белков (вг) в экспериментах (А); распределение коэффициента РгоО^ для набора белков, сгенерированных случайным образом; линиями отмечено стандартное отклонение (Б); увеличенный фрагмент зависимости покрытия белка пептидами (соу) от оценки достоверности идентификации (ее) (В): распределение среднего количество ББВ в зависимости от встречаемости (РЯЕО) белка в экспериментах (Г).

Оптимальные значение частоты встречаемости (РЯБО) белков в наборе экспериментов подбирали исходя из диаграммы, приведенной на рисунке 2Г. Исходные данные для построения диаграммы получали, используя в качестве «наживок» 92 белка, каждый из которых был идентифицирован не менее чем в пяти экспериментах. Для каждого белка-«наживки» подсчитывали количество белков «добычи» при разных значениях РЯБО в диапазоне от 10 до 50 % с шагом в 5%. Например, при РЯБС} = 10% каждому белку-«наживке» в среднем соответствовало 80 партнеров, а при РЯБО = 50% -

только шесть. На рисунке 2Г видно, что точки можно аппроксимировать прямыми, выделив участок быстрого снижения в диапазоне от 10% до 20% по оси абсцисс. По пересечению аппроксимирующих прямых установили пороговое значение FREQ = 21%.

3.2. Валидацня метода виртуальной ко-прецппитации

Метод ВКП тестировали на трех наборах белков, взаимодействия между которыми известны из литературных данных. Для первого набора в качестве белка-«наживки» использовали гистоновый белок HIST4H4 (Р62805). Согласно GPMdb этот гистоновый белок был идентифицирован в 7 250 экспериментах, из которых в результате применения фильтров было отсеяно 5 551. Из 8 048 белков «добычи» только 121 соответствовали условию FREQ>21%. Полученные данные о партнерах для гистонового белка на 75% соответствовали контрольному набору [Zhang et al., 2010].

Контрольный набор для HIST4H4 был представлен 20 белками, среди которых было семь гистонов и пять кератинов. Методом ВКП не удалось идентифицировать 3 гистона, для одного из которых вообще не было экспериментов в GPMdb. Среди выявленных нами белковых партнеров HIST4H4, были обнаружены 9 гистоновых белков, 4 из которых во шли в рассматриваемый контрольный набор. Большая часть партнеров гистонового белка (74%) относилась к контаминантам метода АП-МС. Гистоновые белки, включая H1ST4H4, также относятся к типовым контаминантам, что объясняет большое количество ложноположительных определений ББВ в первом контрольном наборе.

Анализ полученных методом ВКП интерактомных профилей для семи а-субъединиц протеасомного комплекса показал наличие полного набора (15) взаимодействующих субъединиц 20S протеасомы3. В среднем для а-субъединиц протеасомного комплекса было установлено по 30 белковых партнеров, в составе которых были также «выловлены» некоторые из субъединиц регуляторной части (19S) протеасомы. Интерактомные профили семи а-субъединиц на 22% состояли из ложноположительных результатов. При этом 68%. белковых партнеров, выявленных для этих субъединиц, совпадали у разных «наживок». Для протеасомного комплекса метод ВКП показал абсолютную чувствительность (все элементы 20S протеасомы были выявлены), а специфичность на уровне 50%. Невысокая специфичность объясняется тем, что в расчет не принимали субъединицы 19S протеасомного комплекса. Специфичность, рассчитанная при суммировании всех субъединиц 26S протеасомного комплекса, оказалась на уровне 70%.

Третий контрольный набор отличался тем, что представлял собой функциональную сеть. Узлы такой сети не обязательно физически взаимодействуют

3 26S протеасома состоит из двух компонентов: 20S (коровой протеасомы) и 19S (регуляторной части)

12

друг с другом. Из комплекса белков, участвующих в ремоделировании хроматина (557 взаимодействий), методом ВКП были найдены только отдельные белковые взаимодействия, например между белками Т1Р49а и Т1Р49Ь, Р1НШ1 и 1Ж11. Это означает, что чувствительность метода ВКП для функциональных взаимодействий крайне низка.

Возможное объяснение несовпадения результатов ВКП с данными о сети ремоделирования хроматина заключается в низкой концентрации части белков, участвующих в данном процессе. Различие в концентрациях влияет на встречаемость белков в экспериментах, поскольку аналитическая чувствительность масс-спектрометров ограничена. •

Появление новых данных о количественном содержании белков помогает снять ограничение метода, если нормировать значение Г'К ЕС) на количество копий каждого партнера. По нашим данным для эффективного определения ББВ, количество АП-МС экспериментов для двух белков не должно различаться более чем в четыре раза.

3.3. Выявление белок-белковых взаимодействий с участием продуктов хромосомы 18

Загрузив из ресурса СРМс1Ь результаты 13,8 тыс. масс-спектрометрических экспериментов, была проведена идентификация 250 белков хромосомы 18 человека. Идентификацию проводили с использованием ранее подобранных пороговых значений ее и соу (см. раздел 3.1). Из числа установленных белков 211 были представлены канонической формой, а 39 - сплайс-формой.

Применение фильтров сократило количество экспериментов для белков-«наживок» в среднем на 81%. Более 37% экспериментов содержали существенно большее количество идентифицированных белков, чем обычно получается в методе АП-МС (пороговое значение 5<вг< 250). Еще 30% экспериментов отсеяли из-за низких значений Рго018, то есть была высока вероятность, что эти эксперименты содержат не белковые комплексы, а результаты идентификации белков в полосах одномерного геля.

В итоге, методом виртуальной ко-преципитации с частотным фильтром Р11Е(3>20% выявлено ~4,4 тыс. взаимодействий для 103 канонических форм и 12 изоформ белков хромосомы 18. Во взаимодействиях принимали участие 2 318 белков-партнеров, найденных методом ВКП в качестве «добычи». Из числа выявленных партнеров было исключено 146 белков, которые являются типовыми контаминантами метода АП-МС.

На гистограмме (рис.3) наиболее высокий пик позволяет заключить, что примерно для 20% всех белков-«наживок» методом ВКП было найдено по пять партнеров. Ранее в работе [ЙЬеусЬепко й а1., 2002] методом двугибридной дрожжевой системы было

показано, что среднее количество белков-партнеров в интерактоме равно 4,7. Однако, такое количество идентифицированных белков не типично для метода АП-МС. Полученное методом ВКП среднее количество белковых партнеров (35) в два раза превышало среднее значение, характерное для некоторых АП-МС экспериментов [УагрваЬ й а1., 2013]. Расхождения в средних значениях могут объясняться тем, что при ВКП анализируется вся совокупность АП-МС экспериментов, выполненных при различных условиях. В конкретном экспериментальном исследовании, определение ББВ происходит в более стабильном состоянии, достигаемом одинаковыми условиями среды, унификации биоматериала и лабораторного протокола.

На основе приведенных на рисунке 3 данных о количестве ББВ можно рассмотреть две группы белков-«наживок». Первая группа представлена 82 белками, для которых выявили не более 60 взаимодействий. Ко второй группе относятся «наживки», обладающие относительно большим количеством ББВ. Среди таких белков-«наживок» - метил-СрО-связывающий белок МВЭ2 (С>9иВВ5) и представители семейства БМАЭ - БМА02 (015796) и 8МА04 (013485), являющиеся ключевыми белками в развитие опухолевых процессов.

25

ва

= 20

Ч =

0> X

чо о 15

® э

са К

™ X

я а ю

Г г

к

ч

10 20 30

40 50 60 70 количество ББВ

90 100 150 200

Рисунок 3. Количество взаимодействий, в которых выявлены белки-«наживки», кодируемые генами хромосомы 18 человека.

Опираясь на данные рисунка 3, мы предположили, что белки, взаимодействующие со многими партнерами, представляют собой узловые элементы интерактомной сети. В дальнейшем, чтобы подтвердить эту гипотезу использовали геноцентричную базу знаний (см. раздел 3.5).

3.3.1. Аннотирование интерактомных профилей (ИП) в терминах онтологии генов (СО)

Наличие функциональных взаимосвязей между белками подтверждали с использованием аннотирования по интерактомному профилю. Белку-«наживке» сопоставляли интерактомный профиль, представляющий собой перечень, выявленных

методом ВКП, белков-партнеров. Аннотирование профилей проводили для 82-х «наживок», для каждой из которых было не менее 10 взаимодействующих партнеров. Статистически значимое «обогащение» терминами онтологии (р < 10"5) получили для 70% целевых белков. Это означает, что в 70% случаев метод ВКП обеспечивает выявление групп белков, связанных общностью молекулярно-биологических свойств.

Глубина аннотирования различалось по уровню детализации GO-терминов: в одних случаях обогащение происходило по терминам общего характера, например, «биосинтез белка». В других случаях, например для АТФазы (043861) аннотирование профиля указывало на конкретную функцию — обеспечение трансмембранного транспорта фосфолипидов. При этом, для той же АТФазы в другой категории «клеточный компонент» удалось аннотировать только самое общее свойство — встраивание в мембранную структуру.

Белковые продукты одного гена, образующиеся в результате альтернативного сплайсинга, могут иметь различные функции [Buljan et al., 2012; Ellis et al., 2012], т.е. участвовать в разных белковых взаимодействиях. Сравнение результатов ВКП для девяти генов и соответствующих им 19-ти вариантам трансляции белков (рис. 4) проводили путем сравнения интерактомных профилей. Совпадение ИП рассчитывали по формуле (3) и получили, что для шести генов партнеры разных белковых продуктов совпадают более чем на 80%. В случаях несоответствия профилей отмечено, что в составе ИП было менее 10 белковых партнеров.

Применение метода ВКП позволяет выявлять различие между интерактомными профилями канонической и сплайс-формой. Например, для а-субъединицы АТФ-синтазы ИП обоих вариантов белков (Р25705 и Р25705-2) совпали на 86%. Однако, при аннотировании партнеров по генной онтологии белок с канонической последовательностью оказался ассоциирован с транспортными процессами (АТР synthesis coupled proton transport), а изоформа этого белка - с метаболическими (АТР biosynthetic process). Для канонической формы, в отличие от изоформы, была выявлена локализация в митохондриях (категория GO «клеточный компонент»), что связано с участием этой субъединицы АТФ-синтазы в транспорте протона водорода через митохондриальную мембрану (G0:0042776).

МВР РЕСН АТР5А1 МУ0М1 Р5МА8 ТН0С1 К1АА1468 ЕВР4ИЗ ССОС165

Рисунок 4. Распределение количества ББВ среди альтернативных белковых продуктов генов хромосомы 1В человека. Сплайс-формы обозначены кодом доступа, после которого через тире цифрой указан номер формы, согласно ресурсу ишРгоИСВ. В прямоугольниках указано относительное количество партнеров, совпадающих у канонической и сплайс-формы.

3.3.2. Интерактомпая карта

На рисунке 5 приведена интерактомная карта, построенная по результатам применения метода виртуальной ко-преципитации к хромосоме 18 человека. Карта представляет собой неориентированный граф, вершины которого - белки-«наживки», а ребра - взаимосвязи между ними. Сплошными линиями обозначены прямые взаимодействия, выявленные для целевых белков, а пунктиром или двойными линиями - взаимосвязи, устанавливаемые через общего партнера или через группу общих партнеров, соответственно.

На карте отображено 93 белковых продукта, транслируемых с генов хромосомы 18 человека. Из 115 белков хромосомы 18. для которых были получены данные об их взаимодействиях (4 тыс.), 22 не вошли в построенную интерактомную сеть. Не отображенные белки либо не имели контактов с другими белками-«наживками», либо были представлены единичными взаимосвязями, образующими обособленный фрагмент графа. Белки-«наживки», обладающие сходными интерактомными профилями (не менее 50% партнеров совпадают), были объединены в 9 кластеров, обозначенных на рисунке 5 буквами. В состав кластеров вошло 56 белков, примерно половина из отображенных на карте.

061022

<313636

Р17028

043861

092618

Р55087

Р17706

Р02686

060346

014126

Р23368

Р19404

Р38405

043148

00248.

.000194

075635■

013464

014574

Р19105

014950

Р05120

008554

002413

043396

Р19022

Р00167

|8ТААЗ-

015796

Р07947

19У2и2-

095948

013485

092908

,096РУ9

Р22830

043829

014777

013433

09У4В5-

06Р198

Р28827

О32ЫС0

Р18621

Р04818

Р62314

Рисунок 5. Интерактомная карта хромосомы 18 человека, узлами которых являются белки-«наживки». Розовым фоном отмечены белки, образующие кластеры. Продукты одного гена (сплайс-формы), имеющие сходный ИП, отмечены красным кругом. Сплошная линия отражает взаимодействия, установленные между отображенными на карте белками; пунктирная или двойная линия обозначают взаимодействия, осуществляемые посредством одного промежуточного партнера (не кодируемого хромосомой 18) или замыкаются через группу (кластер) таких промежуточных партнеров.

Содержащий наибольшее количество узлов кластер «А» включал в себя серпины и десомальные белки. В группу серпинов вошли девять из 10-ти локализованных на хромосоме 18 представителей этого семейства. Десомальные белки, входящие в группу кадгеринов (трансмембранные белки, элементы цитоскелета) представлены на карте десмоглеинами и десмоколинами. Аннотирование по терминам онтологии генов объектов кластера «А» показало четкое разделение серпиновой и десомальной группы. Однако внутри кластера наблюдается сильная схожесть интерактомных профилей представителей серпинов и десомальных белков. Например, совпадение выявленных партнеров между белками десмоколина 2 (Q02487) и серпина В5 (Р36952) составляло 89%. Участие данных белков в опухолевых процессах при раке желудка и молочной железы [Kim et al„ 2012; Resende et al„ 2011; Sanz-Pamola et al„ 2012], а также способность серпина B5 подавлять метастазирование путем повышения клеточной адгезии [Abraham et al., 2003] свидетельствует о наличие объективной взаимосвязи между этими семействами. Таким образом, хромосомоцентричный анализ позволил выявить два семейства, представители которых тесно взаимодействуют в составе интерактомной сети.

Белки кластера «Б», представленные SMAD2 и SMAD4, GATA6, ONECUT2, ZFP161 и ТНОС1, локализованы в ядре (G0:0005634) и функционируют в составе взаимодействующего с ДНК комплекса (G0:0003677). Участие в транскрипционных процессах (G0:0006351) обуславливает связь белков в кластере «Б» с онкологическими заболеваниями [Shi et al., 1997; Shakib et al., 2005]

3.4. Сопоставление результатов ВКП с базами данных по ннтерактомике

Из пяти Интернет-ресурсов (см. Материалы и методы) была получена информация о взаимодействиях с участием белков, кодируемых на хромосоме 18 человека. Максимальное количество данных для исследуемых белков предоставляет ресурс STRING - 4714 взаимодействий для 182 белков. Наибольшее количество белков-наживок» (191), для которых имеются сведения о взаимодействиях, содержится в базе данных BioGRJD. Суммарно по всем интерактомным базам известны взаимодействия для 233 белков исследуемой хромосомы, из которых для 58 информация присутствует во всех ресурсах; 54, 42 и 48 белков упомянуты в четырех, трех и двух базах данных соответственно, а для 30 белков- сведения о партнерах встречаются только в одном ресурсе.

Сопоставление данных о взаимодействиях между ресурсами показало, что большинство (80%) выявленных взаимодействий между белками встречаются только в одной базе данных. То есть, даже если белки присутствуют в нескольких базах данных, то в каждом ресурсе для него указаны разные партнеры. Во всех пяти интерактомных

ресурсах ББВ совпадают только для 27 белков, 10 из которых кодируются генами хромосомы 18: белки сигнального пути SMAD2 и SMAD4, регулятор апоптоза BCL2, а также CDH2, PARD6G, RALBP1, ROCK1, EPB41L3.

Наибольшая доля белков, кодируемых генами хромосомы 18, имеющих пересечение между данными ВКП со сведениями из интерактомных баз данных, составила около 30% с ресурсом STRING: для 23 из 95 белков-«наживок» были обнаружены общие ББВ. Для остальных интерактомных баз данных доля пересечений с результатами ВКП составила от 23% (BioGRID) до 14 % (MINT).

Выборочный анализ показал, что для некоторых белков наблюдалась высокая степень совпадения между партнерами, полученными методом ВКП и опубликованными сведениями. В таблице 3 приведен перечень белков-«наживок», интерактомный профиль которых совпадал не менее чем на 60% со списком белковых партнеров, загруженный из ресурса STRING. Высокий уровень соответствия наблюдался для некоторых белков, кодируемых хромосомой 18, и в других базах. Например, для кинетохорного белка NDC80 10 из 11 ББВ, полученных в работе, присутствуют в данных STRING, и частично подтверждаются данными ресурсов BioGRID (6 совпадений), IntACT и HPRD (4 и 3 совпадения соответственно).

Таблица 3. Сопоставление белков-партнеров, выявленных методом виртуальной ко-преципитации (ВКП), с данными ресурса STRING.

Название белка-«наживки» Ген Код UniProtKB Количество ББВ

STRING ВКП Совпадающих

Метил-Срв-связывающий белок MBD2 Q9UBB5 16 160 9

Кинетохорный белок Нес 1 NDC80 014777 179 11 10

Митохондриальная NADH дегидрогеназа, флавопротеин 2 NDUVF2 PI9404 52 90 39

Рибосомальный белок RL17 субъединицы 60 S RPL17 PI8621 65 76 52

Нуклеопротеин SEH1 SEH1L Q96EE3 10 7 7

Р - тубулин 6 TUBB6 Q9BUF5 9 40 6

Проведенное сопоставление сведений из интерактомных ресурсов с результатами ВКП отражает сложившуюся ситуацию с разнородностью данных о ББВ, которые составляют от 15 до 60% [ЬеИпе&ЯсІїІіИ, 2009]. Использование различных экспериментальных и биоинформатических методов выявления ББВ порождает массив данных, требующих дополнительной интерпретации. Увеличение объема экспериментальных данных, доступных для обработки методом ВКП, улучшает

качество обнаруживаемых ББВ, повышая их специфичность по отношению к белку-«наживке».

3.5. Геноцентричная база знаний (ГЦБЗ) по интерактому хромосомы 18 человека

На примере аннотирования интерактомных профилей белков, кодируемых генами хромосомы 18 человека, было показано, что в пределах своих ограничений применяемый нами метод, позволяет получать новые результаты, отличающиеся от сведений в современных базах данных по интерактомике. Например, для серпина В7 (075635) методом ВКП впервые было показано участие в ББВ. Для обобщения сведений об интерактоме хромосомы 18 человека использовали геноцентричную базу знаний (ГЦБЗ). База знаний позволяет перейти от исследования усредненных характеристик интерактома, таких как количество узлов, ребер и кластеров, к анализу свойств отдельных белков. Вместо исследования статистических гипотез в базе знаний применяется субъективный подход, основанный на интерактивном взаимодействии человека с интуитивно-воспринимаемым форматом представления данных [Ki-Paik et al„ 2011].

В ГЦБЗ создали рабочее пространство, куда были загружены идентификаторы белков, кодируемых генами хромосомой 18 человека. Характеристики белков были представлены в виде тепловой матрицы. В матрице цветом кодировались результаты, полученные методом ВКП, также данные, загруженные из интерактомных ресурсов, и другие сведения, отражающие свойства белков (см. рис. 6).

На рисунке 6 показана итоговая выборка узловых белков, полученная с применением базы знаний. В состав выборки вошли белки, для которых методом ВКП было выявлено большее количество взаимодействий. Критерием формирования выборки также являлось наличие у отобранных белков большого количества партнеров согласно интерактомным базам данных. Соблюдение этого требования на рисунке отражено тем, что большинство ячеек в первом секторе (обозначения колонок S-I-B-H-М) окрашены в зеленые тона.

Рассмотрение рисунка 6 позволяет увидеть противоречие в отношении отображенных в формате тепловой матрицы белков. Так, для белков RBBP8 и NDC80 все ячейки в строке первого сектора окрашены в тона зеленого, то есть согласно базам данным эти белки участвует во многих взаимодействиях. В то же время, данные ВКП свидетельствуют о незначительном количестве выявленных белковых партнерах (ячейки окрашены в желтый цвет). Наоборот, для белка TGIF1 ячейки, отражающие количество партнеров согласно данным ресурсов STRING и IntACT, имеют желтую окраску, тогда как ячейка «ВКП» (VC) - темно-зеленую. Приведенный пример иллюстрирует, что применение метода ВКП в сочетании с базой знаний позволяет

выделять белки, потенциально обладающие необычными свойствами в составе хромосомоцентричного интерактома.

В заключение надо указать, что с использованием геноцентричной базы знаний мы анализировали количество белков-партнеров, не учитывая, насколько эти партнеры совпадают в разных источниках. Такой подход на сегодняшний день является единственно возможным, поскольку источники данных о ББВ противоречивы вследствие ограничения экспериментальных методов (см. раздел 3.4).

S I В Н М VC CT Hl Н2 MS DR CD

AC Gene i

P19022 CDH2 К

099708 RBBP8 □

О9У5В0 CTDP1 ■

P02686 МБР □

014777 NDC80

015311 RALBP1 □

015796 SMAD2

013485 SMAD4

015583 TGIF1 ■

Рисунок 6. Визуализация интерактомных данных в виде тепловой матрицы в геноцентричной базе знаний. S, I, В, Н и М — количество ББВ в ресурсах STRING, IntACT, BioGRID, HPRD и MINT, соответственно; VC - количество ББВ, полученных методом ВКП; CT - данные о встречаемости в АП-МС экспериментах в качестве контаминанта; HI и Н2 - концентрация белков, измеренная в клеточной линии НЕК293 (по данным ресурса MOPED и статьи [Geiger et al., 2012]); MS -количество масс-спектрометрических экспериментов, в которых был идентифицирован белок в PRIDE, GPMdb, PeptideAtlas; DR - связь белка с заболеваниями [Archakov et al., 2011]; CD - связь белка с опухолевыми процессами, согласно ресурсу OMIM. Градиентом цветов обозначено количество сведений по каждой характеристике от максимального значения (темно-зеленый) к минимальному (светло-оранжевый).

Сопоставление разных источников данных позволяет утверждать, что в составе хромосомоцентричного интерактома можно выделить узловые белки (hub), на которые замыкаются многие взаимодействия (рис. 6). Множественные интерактомные связи узловых белков указывают на их ключевую роль в организации биологических процессов. Нарушение структуры или свойств узлового белка приводит к развитию патологических процессов, преимущественно опухолевых [Ekman et al., 2006].

4. ВЫВОДЫ

1. Реализован метод виртуальной ко-преципитации, и для него определены основные параметры, позволяющие в автоматическом режиме выявлять взаимодействия белков на основе анализа масс-спектрометрических экспериментов из ресурса GPMdb.

2. Разработанный метод позволяет выявлять белковые комплексы с высокой чувствительностью, но низкой специфичностью. Выявленные с использованием метода виртуальной ко-преципитации компоненты функциональных белковых комплексов совпадают с ранее описанными в литературе.

3. Построена интерактомная карта для 115 белков, кодируемых генами хромосомы 18 человека, содержащая сведения о 4 тыс. взаимодействиях. На примере серпина В7 показана возможность выявления новых данных о взаимодействиях методом виртуальной ко-преципитации. В составе карты выделено 9 кластеров объединяющие функционально-сходные белки, часть из которых принимает участие в патогенезе опухолевых заболеваний. Показано, что функциональное аннотирование в GO-терминах для сплайс-вариантов одного белка различно.

4. Результаты, полученные методом виртуальной ко-преципитацип, совпадают с известными данными о белок-белковых взаимодействиях для хромосомы 18 человека примерно на 30%. Невысокая специфичность метода отражает неполноту и противоречивость опубликованных сведений об интерактоме. Анализ доступной информации о белковых взаимодействиях с помощью геноцентричной базы знаний позволяет выделить в составе хромосомы узловые белки, играющие ключевую роль в биологических процессах.

5. СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи:

1. Ivanov A.S., Ershov P.V., Mezentsev Yu. V., Poverennava E.V.. Lisitsa A.V. and Archakov A.I. Protocols of Protein Interactomics: Molecular Fishing on Optical Chips and Magnetic Nanoparticles// Biochemistry (Moscow). 2012. V. 6(2), P 99-106

2. Ponomarenko E.A.; Poverennava E.V.; Pyatnitskiy M.A.; Lisitsa A.V.; Moshkovskii S.A.; Ilgisonis E.V.; Chernobrovkin A.L.; Archakov A.I. Comparative ranking of human chromosomes based on post-genomic data// OMICS: A journal of integrative biology. 2012. V. 16(1), P. 604-11

3. Поверенная E.B.. Боголюбова H.A., Булко H.H., Филимонов А.Д., Ромашева Ю.А. Объектно-ориентированная информационная система для визуализации, хранения и обработки молекулярно-биологических данных// Интеграл. 2012. №3 (65). С. 18-19

4. Zgoda VG, Kopylov AT, Lisitsa AV, Ponomarenko EA, Poverennava EV. Radko SP, Khmeleva SA, Kurbatov LK, Filimonov AD, Bogolyubova NA, Ilgisonis EV, Chernobrovkin AL, Ivanov AS, Medvedev AE, Mezentsev YV, Moshkovskii SA, Naryzhny SN, llina EN, Kostrjukova ES, Alexeev DG, Tyakht AV, Govorun VM, Archakov AI. Chromosome 18 transcriptome profiling and targeted proteome mapping in depleted plasma, liver tissue and HepG2 cells// JPR. 2013. V 12(1). P. 123-134.

5. Poverennava EV. Bogolubova NA, Ponomarenko EA, Lisitsa AV, Archakov AI. GenoCMS - The Content Management System for genes and proteins// Proteomics and Bioinformatics. 2013. V 6. P. 176-182.

Тезисы:

6. E Ponomarenko, M Pyatnitskiy, E Poverennava. A Lisitsa. Comparative analysis of human chromosomes based on post-genomic data// In: Proceedings 6th Congress AOHUPO. Beijing. 2012. P. 322

7. Поверенная E.B.. Лисица A.B., Пономаренко E.A. Gene-Centric Content Management System: база знаний но белкам 18-й хромосомы человека// Сборник трудов XIX Российского национального конгресса «Человек и лекарство». Москва. 2012. С.555

8. Poverennava EV. Chernobrovkin AL, Lisitsa AV. Deciphering of the 18th chromosome centered interactome by analysis of PRIDE and GPMDB datasets// In: Proceedings the HUPO 11th Annual World Congress. Boston. 2012. P.84.

9. Ekaterina Poverennava, Elena Ponomarenko, Andrey Lisitsa. Chromosome-centric view of human protein-protein interactions based on In Silico analysis// In: Proceedings the Proteomic Forum 2013. Berlin. 2013. P.138.

10. Andrey V. Lisitsa, Ekaterina V. Poverennava. Nadezhda A. Bogolubova, Elena A. Ponomarenko. Consolidating Chrl8 data using knowledge base of protein and transcript features// In: Proceedings the Proteomic Forum 2013. Berlin. 2013. P.143.

11. Поверенная E.B.. Чернобровкин A.JI., Пономаренко E.A., Лисица А.В. Выявление белок-белковых взаимодействий путем анализа масс-спектрометрических данных// Сборник трудов XX Российского национального конгресса «Человек и лекарство». Москва. 2013. С. 408

12. Поверенная Е.В. Пономаренко Е.А., Пятницкий М.А., Лисица А.В., Мошковский С.А., Ильгисонис Е.В., Чернобровкин А.Л., Арчаков А.И. Сравнительный анализ хромосом человека на основе постгеномных данных// Сборник тезисов докладов научной конференции ФГБУ «ИБМХ» РАМН. Москва. 2013. С.17

13. Poverennava E.V.. Chernobrovkin A.L., Ponomarenko Е.А., Lisitsa A.V. Chromosome-centered interactome of human chromosome 18 by analysis of GPMDB datasets// In: Proceedings the FEBS Journal. V. 280. Saint Petersburg. 2013. P. 636

Подписано в печать 15.09.2013г. Формат А5 Печать цифровая. Тираж 105 Экз. Заказ № 0718 Типография ООО "Ай-клуб" (Печатный салон МДМ) 119146, г. Москва, Комсомольский пр-кт, д.28 Тел. 8-495-782-88-39

Текст научной работыДиссертация по биологии, кандидата биологических наук, Поверенная, Екатерина Владимировна, Москва

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ «НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ БИОМЕДИЦИНСКОЙ ХИМИИ ИМЕНИ В.Н. ОРЕХОВИЧА» РОССИЙСКОЙ АКАДЕМИИ

МЕДИЦИНСКИХ НАУК

ПОВЕРЕННАЯ ЕКАТЕРИНА ВЛАДИМИРОВНА

ИНТЕРАКТОМ БЕЛКОВ, КОДИРУЕМЫХ ГЕНАМИ ХРОМОСОМЫ 18 ЧЕЛОВЕКА

03.01.09 — математическая биология, биоинформатика

Диссертация на соискание ученой степени кандидата биологических наук

Научный руководитель: д.б.н., член-корр. РАМН Лисица А.В.

Москва 2013

04201361849

Содержание

1. ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ.........................................................................4

2. ОБЗОР ЛИТЕРАТУРЫ.......................................................................................7

2.1. Источники сведений о взаимодействия между белками.........................8

2.1.1. Выявление бинарных белковых взаимодействий............................9

2.1.2. Высокопроизводительные экспериментальные методы..............11

2.1.3. Определение термодинамических параметров образования белковых комплексов.......................................................................................15

2.1.4. Проблемы и недостатки исследования интерактома.....................17

2.2. Тематические ресурсы...............................................................................19

2.2.1. Интерактомные базы данных...........................................................19

2.2.2. Онтология генов Gene Ontology (GO).............................................23

2.2.3. Базы данных белков и генов............................................................26

2.2.4. Репозитории масс-спектрометрических данных............................31

2.3. Биоинформатические методы выявления белковых взаимодействий..33

2.3.1. Предсказание белковых взаимодействий на основе структурной информации......................................................................................................33

2.3.2. Методы машинного обучения..........................................................35

2.3.3. Автоматический анализ текстов (text-mining)................................3 8

2.3.4. Обработка результатов масс-спектрометрических экспериментов ............................................................................................................................40

2.4. Интерактомные сети..................................................................................46

3. МАТЕРИАЛЫ И МЕТОДЫ.............................................................................50

3.1. Материалы...................................................................................................50

3.1.1. Данные об идентификации белков и о типовых контаминантах. 50

3.1.2. Аминокислотные последовательности белков человека .............52

3.1.3. Контрольные наборы .......................................................................53

3.1.4. Интерактомные ресурсы...................................................................53

3.2. Методы........................................................................................................55

3.2.1. Подготовка входных данных...........................................................55

3.2.2. Метод виртуальной копреципитации (ВКП)..................................59

3.2.3. Получение и кластеризация интерактомных профилей................62

3.2.4. Анализ белковых взаимодействий с использованием геноцентричной базы знаний.........................................................................63

3.2.5. Программная реализация алгоритмов.............................................64

4. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ...................................................................65

4.1. Подбор параметров для метода виртуальной копреципитации............65

4.1.1. Фильтрация данных..........................................................................65

4.1.2. Отбор масс- спектрометрических экспериментов.........................68

4.1.3. Оценка достоверности идентификации белка-«наживки» ..........73

4.1.4. Определение частоты встречаемости взаимодействующих белков ...........................................................................................................................76

4.2. Исследование применимости метода виртуальной копреципитации... 77

4.2.1. Определение типовых контаминантов...........................................77

4.2.2. Валидация метода виртуальной копреципитации.........................79

4.3. Хромосомоцентричный интерактом........................................................85

4.3.1. Выявление белок-белковых взаимодействий.................................85

4.3.2. Аннотация интерактомных профилей по онтологии генов.........95

4.3.3. Интерактомная карта хромосомы 18 человека..............................97

4.4. Характеристика результатов виртуальной копреципитации..............104

4.4.1. Анализ интерактомных баз данных .............................................104

4.4.2. Сопоставление результатов виртуальной копреципитации с базами данных по интерактомике...............................................................108

4.4.3. Геноцентричная база знаний (ГЦБЗ) по интерактому хромосомы 18 человека....................................................................................................112

5. ЗАКЛЮЧЕНИЕ................................................................................................118

6. ВЫВОДЫ.........................................................................................................122

7. СПИСОК СОКРАЩЕНИЙ.............................................................................123

8. СПИСОК ЛИТЕРАТУРЫ..............................................................................124

ПРИЛОЖЕНИЯ...................................................................................................138

1. ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ

Результаты завершенной в 2001 году международной программы «Геном человека» (Venter et al., 2001) позволили перейти к следующей масштабной задаче - инвентаризации белков и взаимодействий между ними. Для реализации международного проекта «Протеом человека» ("The big ome" 2008), как и в случае проекта «Геном человека», был принят хромосомоцентричный подход, при котором за каждой страной-участницей закреплена конкретная хромосома человека: корейские ученые сконцентрировали усилия на работе с хромосомой 13, исследователи из США - на хромосоме 17 и т.д. Россия выбрала белки, кодируемые генами хромосомы 18 (Ponomarenko et al., 2012). Искусственное разделение объектов исследования по хромосомам позволяет детально проанализировать массив белков человека, который по предварительным расчетам может включать от 2 млн до 1 млрд белковых продуктов (Archakov et al., 2009; Kelleher, 2012).

Важнейшей задачей проекта «Протеом человека» является анализ белок-белковых взаимодействий (ББВ). Построение интерактомных сетей (карт ББВ) позволяет изучить молекулярные процессы в клетке, нарушение которых приводит к развитию заболеваний. Опубликованы описания интерактомных карт при развитии заболеваний, например, таких, как ишемическая болезнь сердца (Ren & Liu, 2012) и колоректальный рак (Sanz-Pamplona, Berenguer, et al., 2012). Изучение топологии сети в связи с развитием патологий является новым способом выявления потенциальные мишени для создания новых лекарств, в том числе, для лечения мультигенных заболеваний (Rodriguez-Soca et al., 2010).

Несмотря на фундаментальное значение белковых взаимодействий, данные об интерактоме человека противоречивы (Lehne & Schlitt, 2009). Для выявления сведений о ББВ преимущественно используют две группы экспериментальных методов - двугибридную дрожжевую систему (ДГДС) и аффинную пробоподготовку в сочетании с масс-спектрометрией (АП-МС). Оба метода характеризуются высокой производительностью, но низкой

достоверностью выявленных взаимодействий. Ограничения высокопроизводительных экспериментальных методов возникают, в первую очередь, из-за отсутствия возможности измерения термодинамических параметров комплексообразования (Bai et al., 2011).

Поскольку определение взаимодействия между белками является, на сегодняшний день, трудновыполнимой задачей, разрабатываются различные биоинформатические подходы. Роль вычислительной интерактомики заключается в корректном совмещении множества противоречивых экспериментальных данных. Противоречия возникают не только из-за проблем экспериментальных методов, но и являются следствием того, что сеть ББВ динамично изменяется в процессе функционирования клетки. Изменения накладываются на высокую сложность объекта исследования: интерактом человека, по приблизительным оценкам, включает от 300 до 650 тысяч различных взаимодействий (Stumpf et al., 2008).

Хромосомоцентричный подход к анализу интерактома позволяет ограничить масштаб белковой сети и провести подробное исследование состава карты ББВ. Обычно объектами исследования интерактомики являются белки, ассоциированные с заболеваниями, или белки, вовлеченные в уже изученные клеточные процессы. Выйти за рамки исследования ранее охарактеризованных молекулярных процессов позволяет

хромосомоцентричный подход, при котором повышается вероятность выявления новых, ранее неизвестных взаимодействий.

Обработка массива экспериментов, выполненных методом АП-МС, является перспективным способом получения сведений о белковых взаимодействиях. В данной работе для обработки экспериментальных данных был использован метод виртуальной копреципитации (ВКП) (С. Zhang et al., 2011). Принцип данного метода заключается в определении частоты совместной встречаемости белков в масс-спектрометрических экспериментах. Физические взаимодействия между белками обеспечивают

их совместное определение во многих экспериментах, выполненных методом АП-МС.

Цель работы: выявление белковых взаимодействий для продуктов генов хромосомы 18 человека с помощью автоматической обработки результатов масс-спектрометрических экспериментов методом виртуальной копреципитации (ВКП).

В работе были поставлены задачи:

1. Обосновать параметры метода виртуальной копреципитации для выявления белок-белковых взаимодействий путем анализа результатов масс-спектрометрических экспериментов.

2. Оценить достоверность метода и исследовать его применимость на примере белок-белковых комплексов и сетей функциональных взаимодействий.

3. Применить метод виртуальной копреципитации для белков, кодируемых генами хромосомы 18 человека, и охарактеризовать полученные результаты с учетом молекулярной функции взаимодействующих белков.

4. Сопоставить результаты виртуальной копреципитации с известными данными о белок-белковых взаимодействиях; определить узловые белки в составе интерактома хромосомы 18 человека.

2. ОБЗОР ЛИТЕРАТУРЫ

Первые белок-белковые взаимодействия (ББВ) (между трипсином и его ингибитором) были выявлены в конце XIX века. Однако, только в начале 90-х годов XX века стала понятной ключевая роль взаимодействий между белками в различных биологических процессах (Braun & Gingras, 2012). Любой процесс в клетке осуществляется за счет множества разнообразных белковых взаимодействий.

Под взаимодействием белков подразумевается связь двух и более белковых молекул, обеспечивающая выполнение биологической функции. Различают физические взаимодействия и взаимодействия в составе сети (Qi et al., 2006). Физические взаимодействия подразделяются на прямые (бинарные) и комплексные взаимодействия. Группа белков, которые взаимодействуют друг с другом одновременно, формируя мультимолекулярную единицу, называется комплексом (J. Wang et al., 2011).

Основными экспериментальными методами выявления белок-белковых взаимодействий являются двугибридная дрожжевая система (yeast two hybrid) и метод аффинной пробоподготовки в сочетании с масс-спектрометрией (affinity purification coupled to mass-spectrometry). Согласно опубликованным данным, доля взаимодействий, установленных методом двугибридной дрожжевой системы (ДГДС), достигает 20%, а аффинной пробоподготовки в сочетании с масс-спектрометрией (АП-МС) - 55%. (Orchard et al., 2012). При методе АП-МС выявляют комплексные взаимодействия, тогда как двугибридная дрожжевая система является лидирующим методом, для определения бинарных белковых взаимодействий (Xenarios et al., 2001). Для определения кинетики физического взаимодействия белков используют оптические биосенсоры.

Накопление большого количества данных по интерактомике, полученных опытным путем, и их противоречивость привели к развитию биоинформатических методов. Методы in silico используются для

предсказания и описания новых ББВ на основе ранее полученных сведений (Иванов A.C. и др., 2011). Предсказательные алгоритмы базируются на анализе геномных данных, аминокислотных последовательностей, данных о трехмерных структурах белков и результатах транскриптомных и протеомных экспериментов. Отдельной задачей биоинформатики является верификация сведений о ББВ, заключающаяся в определении взаимодействий в результатах, полученных масс-спектрометрическими методами (Nesvizhskii, 2012). Основываясь на предположении, что физически взаимодействующие белки функционально связаны между собой, вычислительные подходы используются также для предсказания функций белков.

Интеграция экспериментальных и биоинформатических методов, направленная на детальное изучение аспектов взаимодействия белков и их форм в клетке, представляет собой современную интерактомику. Главная задача интерактомики - построение и описание сетей (карт) ББВ. Узлами сети являются белки, а ребрами - взаимодействия между ними. В зависимости от размера и сложности организации, интерактомная сеть может отражать как отдельный клеточный процесс, так и регуляцию фенотипа организма (Ramírez et al., 2007).

Далее будут рассмотрены основные экспериментальные и биоинформатические подходы, используемые для создания интерактомных карт белков человека.

2.1. Источники сведений о взаимодействиях между белками

В настоящее время не существует универсального метода, который позволил бы в рамках одного эксперимента ответить на вопросы: «как взаимодействуют данные белки?», «какие белки взаимодействуют с данным белком и при каких условиях?», «каково сродство взаимодействующих партнеров?». Хорошо изучены и описаны всего несколько десятков пар

белков, для которых известны условия связывания и распада, константа диссоциации, а также контактные участки.

Известны несколько принципов выполнения экспериментов для выявления белок-белковых взаимодействий: 1) детектирование бинарных (физических) ББВ, 2) использование высокопроизводительных (широкомасштабных) методов, а также 3) исследование термодинамических параметров взаимодействий.

2.1.1. Выявление бинарных белковых взаимодействий

Исследования бинарных взаимодействий в живой клетке проводятся с помощью специальных меток, пришиваемых к исследуемым белкам. В качестве детектирующих меток используются флуорофорные или люминесцентные вещества, а также репортерные гены (Braun, 2012).

С момента появления первого такого подхода - двугибридной дрожжевой системы (ДГДС) - прошло более 30 лет (Braun & Gingras, 2012). Простота его использования позволила стать ему одним из наиболее популярных методов экспериментальной интерактомики. Суть метода двугибридной системы заключается в конструировании двух генетических систем. При взаимодействии двух белков в составе сконструированной системы происходит активация репортерного гена (Xenarios et al., 2001). Первая генетическая система (рис. 1, А) состоит из интересующего белка X («bait» -«наживки») и ДНК-связывающего домена фактора транскрипции (белок DBD-X), а вторая - из белка Y («ргеу» - «добычи») и активационного домена фактора транскрипции (AD-Y). Взаимодействие белков X и Y приводит к формированию активного фактора транскрипции из двух доменов DBD и AD, что обеспечивает экспрессию репортерного гена. В случае отсутствия взаимодействия репортерный ген не траскрибируется. В качестве репортерного гена чаще всего выбирают ген, кодирующий бактериальную Ь-галактозидазу - LacZ, активность которого легко определяется с помощью калориметрии.

С 1991 года (Chien et al., 1991) помимо доменов фактора транскрибирования в ДГДС используются и другие маркерные домены, например дегидрофолатредуктаза (DHFR) и вирус гравировки табака (TEV). Особенностью данных маркеров является восстановление активности при взаимодействии белков. Этот подход получил название структурный анализ комплементации фрагментов белка (protein-fragment complementation assays -РСА).

Убиквитин применяется как маркерный белок в подходе мембранной двугибридной дрожжевой системы (membrane yeast two-hybrid - MYTH). Особенность этого метода заключается в наличии репортерного гена, например, вышеупомянутого LacZ, который активируется при освобождении транскрипционного фактора, связанного с фрагментом убиквитина (Lam & Stagljar, 2012). С помощью такой конструкции была достигнута возможность исследования взаимодействия мембранных белков, которые не детектировались классическим методом ДГДС.

Использование цитокинов как специфичной метки было предложено в методе MAPPIT (mammalian protein-protein interaction trap), где индикатором взаимодействия двух белков служит восстановление сигнального пути цитокининов I типа (Ulrichts et al., 2009). Частный случай этого подхода -метод бимолекулярной комплементации флуоресценции, при котором в качестве репортера применяются флуорофорные белки (Kaczor & Selent, 2011). При взаимодействии белков происходит «свечение» белка, детектируемого с помощью флуоресцентного микроскопа.

Флуорофоры используются в, так называемых, оптических методах выявления ББВ, к которым относятся метод ферстеровского (или флуоресцентного) резонансного переноса энергии (förster (or fluorescence) resonance energy transfer - FRET) и метод биолюминисцентного резонансного переноса энергии (bioluminescence resonance energy transfer - BRET) (Kenworthy, 2001).

Нет взаимодействия

?

Репортерный ген

Есть взаимодействие

W \27

Репортерный ген

Масс-спектрометрия

Рисунок 1. Принцип метода двугибридной дрожжевой системы (А) и аффинной пробоподготовки в сочетании с масс-спектрометрией (Б). Адаптировано из статьи (Lehne & Schlitt, 2009)

2.1.2. Высокопроизводительные экспериментальные методы

Важным направлением в развитии экспериментальных мет�