Бесплатный автореферат и диссертация по биологии на тему
Анализ масс-спектров пептидных фрагментов для идентификации генетически детерминированного полиморфизма белков
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Анализ масс-спектров пептидных фрагментов для идентификации генетически детерминированного полиморфизма белков"

На правах рукописи л

005014030

Чернобровкин Алексей Леонидович

АНАЛИЗ МАСС-СПЕКТРОВ ПЕПТИДНЫХ ФРАГМЕНТОВ ДЛЯ ИДЕНТИФИКАЦИИ ГЕНЕТИЧЕСКИ ДЕТЕРМИНИРОВАННОГО ПОЛИМОРФИЗМА БЕЛКОВ

03.01.09 — математическая биология, биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата биологических наук

1 5 [ЛА? 2Ш

Москва - 2012

005014030

Работа выполнена в Федеральном государственном бюждетном учреждении «Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича» Российской академии медицинских наук. Научный руководитель: доктор биологических наук,

член-корреспондент РАМН, Лисица А. В.

Официальные оппоненты: Николаев Е. Н.

доктор физико-математических наук, профессор, ФГБУН ИНЭПХФ РАН, заведующий лабораторией ■

Равин Н. В.

доктор биологических наук, ФГБУН «Центр Биоинженерия» РАН, заместитель директора по научной работе

Ведущая организация: ФГУ «Научно-исследовательский

институт физико-химической

медицины» ФМБА России

Защита состоится «12» апреля 2012 года в 11 ч. 00 мин. на заседании Диссертационного совета Д 001.010.01 при Федеральном государственном бюждетном учреждении «Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича» Российской академии медицинских наук по адресу: 119121, г. Москва, ул. Погодинская, д. 10, стр. 8.

С диссертацией можно ознакомиться в библиотеке ФГБУ «ИБМХ» РАМН. Автореферат разослан « Г » М^Ш^ 2012.

Учёный секретарь Диссертационного совета1 ¿/^

кандидат химических наук " И-— Карпова Е.А.

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

1.1. Актуальность проблемы

В генах человека известно 65 тысяч замен единичных нуклеотидных остатков (Single Nucleotide Polymorphism, SNP), являющихся несинонимичными, то есть потенциально приводящих к точечным заменам в аминокислотной последовательности белка [Yip и др., 2008]. По данным ресурса UniProt менее 1% точечных замен аминокислотных остатков установлено экспериментальным путем, например, методом Сэнжера или белковой хроматографией. Развитие биологической масс-спектрометрии как средства высокопроизводительного анализа протеомов открывает перспективы для подтверждения наличия в белках одноаминокислотных полиморфизмов (ОАП).

В рамках центральной догмы молекулярной биологии наличие неси-ноннмичного SNP в гене предопределяет, что в белковом продукте гена будет присутствовать соответствующая замена аминокислотного остатка. Однако, генотипирование не позволяет установить, влияет ли точечное изменение в последовательности ДНК на уровень экспрессии белкового продукта. В литературе имеются единичные сведения о соотношении уровня экспрессии продуктов аллельных генов, тогда как определение этого соотношения расширяет представления о природе слабовредных генетических мутаций, лежащих в основе соматических мультигенных заболеваний [Roth и др., 2008].

Исследование индивидуальных особенностей протеома, в частности полиморфизма аминокислотных остатков, является задачей протеотипиро-вания. Термин предложен по аналогии с генотипированием молекул ДНК для обозначения экспериментов по изучению микрогетсрогенности белков, обусловленной альтернативным сплайсингом, пост-трансляционными модификациями, а также полиморфизмом аминокислотных остатков. В свое время, задача генотипирования была решена за счет биологической реакции полимеризации молекул ДНК. В отношении белков аналогичный подход в настоящее время не известен, поэтому информацию об ОАП целесообразно получать с помощью физического похода, основанного на

высокоточном измерении масс-зарядных характеристик белков и их фрагментов.

Основным методом, применяемым для исследования протеома, является масс-спектрометрический анализ белковых молекул. Идентификация белков проводится алгоритмически, путем сопоставления масс и зарядов продуктов ферментативного гидролиза белков с теоретическими значениями, вычисленными на основе расшифрованного генома [Govorun и др., 2002]. При масс-спектрометрическом анализе белок считается идентифицированным, если установлено 1-2 специфичных пептидных фрагмента первичной структуры. По пептидным фрагментам последовательности удается различить белковые продукты разных генов, но отнюдь не установить микрогстерогенные варианты одного и того же белка. Специфичные для аллельных форм пептидные фрагменты (протеотипи-чсские пептиды [Craig и др., 2005]) с высокой вероятностью приходятся на неустановленную в ходе масс-спектрометрического эксперимента часть последовательности белка. Если же протеотипический пептид находится в идентифицируемой части последовательности, то наличие аллельного варианта трансляции гена вносит неоднозначность в интерпретацию масс-спектрометрических данных.

Принципиальная проблема в области протеотипирования заключается в недостаточном покрытии пептидными фрагментами последовательностей белков, идентифицируемых масс-спектрометрическими методами. Масштаб обозначенной проблемы таков: сегодня стандартные экспериментальные и биоинформационные подходы обеспечивают 10-30% покрытия, а для идентификации ОАП необходимо достичь 100%. Решение возможно за счет обработки обширных репозиториев масс-спектрометрических данных, то есть коллекций, полученных разными исследовательскими группами при варьировании условий проведения экспериментов. Настоящая работа направлена на разработку вычислительного подхода к решению проблемы определения ОАП в белках.

Целью работы являлась разработка способа анализа масс-спектрометрических данных для идентификации единичных аминокислотных полиморфизмов, возникающих в результате трансляции несино-

нимичных нуклеотидных замен в соответствующих генах, и применение разработанного способа для выявления аминокислотных замен в белках человека.

Для достижения поставленной цели решались следующие задачи:

1. Провести обработку масс-спектров пептидных фрагментов для повышения степени покрытия аминокислотных последовательностей белков идентифицированными пептидами.

2. На модельном наборе масс-спектрометрических данных, обеспечивающих высокую степень покрытия последовательностей, разработать метод выявления одноаминокислотных замен в белках человека.

3. Обобщить метод выявления одноаминокислотных замен в форме универсального алгоритма обработки тандемных масс-спектров; оценить чувствительность и специфичность созданного алгоритма.

4. Применить созданный алгоритм для обработки репозитория масс-спектрометрических данных, определить одноаминокислотные полиморфизмы и охарактеризовать белки человека, содержащие выявленные полиморфизмы.

1.2. Научная новизна и практическая значимость

Для выявления в белках аминокислотных полиморфизмов разработан оригинальный итеративный метод, основанный на последовательном применении существующих алгоритмов идентификации белков и пептидов. Особенностью разработанного метода является то, что в процессе идентификации ОАП в базу данных аминокислотных последовательностей белков итеративно вносятся изменения, учитывающие сведения о наличии несинонимичных нуклеотидных замен в соответствующих идентифицированным белкам генах (патент РФ №2408011).

С помощью анализа масс-спектрометрических данных на протеомном уровне обнаружена экспрессия аллельных вариантов белков надсемейства цитохромов Р450 человека. Впервые проведена масштабная инвентаризация одноаминокислотных полиморфизмов белков человека. В результате

установлено 270 одноаминокислотных полиморфизмов в 156 белках человека.

Среди выявленных одноаминокислотных полиморфизмов более 20% связаны с различными заболеваниями человека, включая сердечнососудистые, онкологические и другие заболевания. Обнаруженные протео-типичсские пептиды, характерные для связанных с заболеваниями микрогетерогенными вариантами белков человека, могут быть использованы для выявления диагностических биомаркеров методом мониторинга множественных реакций (MRM).

1.3. Апробация работы

Основные положения диссертационной работы докладывались и обсуждались на международной конференции «Central and Eastern European Proteomics Conference» (Йена, Германия, 2008), на научной конференции «Химическая биология. Фундаментальные проблемы бионанотехнологии» (Новосибирск, 2009), а так же на 8-м Ежегодном всемирном конгрессе Международной организации «Протеом человека» (HUPO 8-th Annual World Congress, Торонто, Канада, 2009).

1.4. Публикации

Материалы диссертационной работы изложены в 7 публикациях: в 3 статьях, в 1 патенте, в 3 публикациях в материалах сборников научных конференций.

1.5. Объем и структура диссертации

Диссертация изложена на 189 страницах машинописного текста; содержит 27 рисунков и И таблиц. Состоит из глав «Введение», «Обзор литературы», «Материалы и методы», «Результаты и обсуждение», «Заключение», «Выводы» и «Список литературы»; включает 2 приложения.

2. МАТЕРИАЛЫ И МЕТОДЫ

2.1. Данные масс-спектрометрического анализа микросомаль-ных фракций печени человека

Исследование масс-спектрометричсских методов для решения задачи идентификации ОАП проводили с использованием массива масс-спектрометрических данных, полученных при протеомном анализе мик-росомальных фракций печени человека [Lisitsa и др., 2009]. Масс-спектрометрические данные представляли собой 800 файлов в формате peaklist.xm] (4 образца, по 40 срезов каждый, 5 повторов на срез). Файлы содержали откалиброванные по пикам аутолиза трипсина масс-спектры, полученные на времяпролетном масс-спектрометре Autoflex II (Bruker Daltonics, Germany). Также использовали 160 файлов в формате mgf (4 образца по 40 срезов), содержащих тандемные масс-спектры, полученные на масс-спектрометре типа ионная ловушка LC/MSD Trap (Agilent, USA).

2.2. Контрольный набор «Aurum Dataset»

Для анализа чувствительности и специфичности алгоритма идентификации одноаминокислотных полиморфизмов использовали масс-спектромстрические данные «Aurum Dataset», полученные в работе [Falkner и др., 2007]. Данные включают в себя результаты масс-спектрометрических экспериментов, выполненных на ABI 4700 MALDI TOF/TOF (Applied Biosystems, USA) для 246 индивидуально очищенных рекомбинантных белков человека. Данные были загружены из протеомного репозитория Tranche в форматах .t2d и MGF. В работе использовали сводный масс-спектр aurum.mgf, содержащий в общей сложности 9987 масс-спектров пептидных фрагментов.

2.3. Масс-спектрометрические данные протеомного репозитория PRIDE

Файлы протеомного репозитория PRIDE в формате mzData загружали с ftp-сайта PRIDE по адресу ftp://ftp.ebi.ac.uk/pub/databases/pride/.

Всего было загружено 9317 файлов общим объемом 270 ГБ. Для анализа был отобран 1891 файл, в которых содержались результаты масс-спектрометрических исследований образцов биоматериала человека (TaxID=9606).

2.4. Базы данных аминокислотных последовательностей белков человека

Базу данных NCBInr использовали для идентификации белков микросомальной фракции печени человека. База данных в формате FASTA была загружена с ftp-сайта NCBI по адресу ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz. На момент загрузки (март 2010 года) в базе данных содержалось более 10 млн. аминокислотных последовательностей белков, из которых 518 609 записей соответствовали белкам человека.

Базу данных SwissProt использовали для идентификации белков человека по масс-спектрам протсомного репозитория PRIDE, а так же для валидации алгоритма идентификации ОАП. Аминокислотные последовательности белков в формате fasta были загружены с ftp-сайта UniProt по адресу ftp://fpt.uniprot.org/pub/databases/uniprot. Загруженная в марте 2010 года база данных SwissProt содержала 516 081 аминокислотных последовательностей, из которых 20 280 последовательностей относились к белкам человека.

2.5. Сведения о генетически-детерминированных полиморфизмах белков человека

Сведения о возможных полиморфизмах белков человека загружали из базы данных UniProt в виде текстового файла humsavar.txt (http://www.uniprot.org/docs/humsavar.txt). В файле содержались результаты предсказания аминокислотных полиморфизмов, полученные путем компьютерной трансляции несинонимичных нуклеотидных замен в геноме человека, а так же небольшое число (<1%) аминокислотных полиморфизмов, ранее обнаруженных на протеомном уровне. Всего в файле

humsavar.txt было описано 62 053 одноаминокислотных полиморфизма для 12229 белков человека, из них 19868 (32%) связаны с различными заболеваниями, 36480 (59%) не имеют ассоциаций с заболеваниями, а 5 705 (9%) мутаций не классифицированы.

2.6. Идентификация белков и пептидов

Идентификацию белков методом отпечатков пептидных масс (Peptide Mass Fingerprinting, PMF) осуществляли в программе Mascot v.2.2 (MatrixScience, UK). Для определения оптимального значения допуска на расхождение между теоретической и экспериментальной массой пептида (peptide mass tolerance), идентификацию белков в каждом масс-спектре проводили, варьируя значение допуска от 0,02 до 0,40 Да. Для идентификации пептидов и белков методом отпечатков фрагментации пептидов (Peptide Fragment Fingerprint, PFF) использовали программу Mascot v.2.2 для поиска по базам данных NCBInr (при анализе масс-спектров мик-росомальных белков фракций печени человека) и SwissProt (при анализе масс-спектров протеомного репозитория PRIDE). Параметры работы программы Mascot определяли в зависимости от типа масс-спектромстра, с помощью которого были проведены измерения. В случае масс-спектров, полученных с помощью ионной ловушки, значение допуска на расхождение между теоретической и экспериментальной массой пептида устанавливали равным 200 м. д., допуск на расхождение между теоретической и экспериментальной массой пептидного фрагмента 0,8 Да. В качестве допустимых модификаций аминокислотных остатков указывали окисление метионина и модификацию цистеина акриламидом. При проведении идентификации допускалось не более одного пропущенного сайта гидролиза на пептид.

2.7. Одномерное протеомное картирование

Для определения локализации идентифицированных белков в одномерном геле использовали метод построения протеомных карт [Lisitsa и др., 2009]. Данные (масс-спектры и результаты идентификации) представляли в виде таблицы, строки которой соответствовали отдельным белкам

(или их группам), идентифицированным в образце, а столбцы — последовательным срезам геля. С применением специально разработанной программы Zoomer (projects.ibmh.msk.su/zoomer) в ячейках одномерной про-теомной карты рассчитывали индексы представленности белка [Ishihama и др., 2005]. Ячейки, в которых значения индексов более чем на одно стандартное отклонение превышали среднее по всем срезам, определяли как зону локализации белка.

2.8. Итеративный алгоритм идентификации ОАП

Для идентификации ОАП в масс-спектрометрических данных применяли итеративный алгоритм, блок-схема которого представлена на рис. 1. Идентификацию пептидов и белков в масс-спектрах проводили с использованием программы Mascot. Из отчетов о результатах идентификации извлекали идентификаторы обнаруженных белков, которые использовали для формирования дополнительных последовательностей, содержащих предполагаемые одноаминокислотные полиморфизмы, в соответствии с базой данных полиморфизмов (humsavar.txt, UniProt). На основании сгенерированных дополнительных последовательностей создавали расширенную базу данных белковых последовательностей, которую использовали при повторной идентификации пептидов и белков, используя те же входные параметры и программное обеспечение, что и на первом этапе. Результаты повторной идентификации пептидов и белков анализировали на наличие протеотипических пептидов, содержащих одноаминокислотные полиморфизмы.

2.9. Валидация алгоритма идентификации ОАП

Для определения чувствительности и специфичности алгоритма использовали контрольный набор масс-спектрометрических данных «Aurum Dataset». Так как в белках, масс-спектры которых представлены в Aurum dataset, отсутствовали ОАП, то проводили моделирование, внося изменения в исходные аминокислотные последовательности. Для создания мо-

Рис. 1: Итеративный метод идентифицирования ОАП, (*) обозначены элементы блок-схемы, отличающие разработанный алгоритм от аналогов [Chen и др., 2010; Alves и др., 2008].

дели, содержащей один «истинный» ОАП1 х —> у в белке А, на основе аминокислотных последовательностей базы данных SwissProt создавали модифицированную базу данных белков человека, в которой изменяли последовательность белка А на последовательность А', содержащую заданный полиморфизм х —> у. Одновременно в файл с данными о полиморфизмах белков человека вносили запись, соответствующую полиморфизму у —У х. Для каждого «истинного» ОАП случайным образом вносили один «ложный» ОАП в качестве отрицательного контроля.

При построении модели, содержащей N истинных ОАП и N ложных (отрицательный контроль), из списка 225 идентифицированных белков случайным образом отбирали сначала N белков для истинных ОАП, потом таким же образом N белков для ложных ОАП (выборки белков для истинных и ложных ОАП могут пересекаться). Затем, для каждого из отобранных белков из базы данных UniProt получали сведения об известных ОАП, из которых отбирали случайным образом один ОАП.

1 «истинный» ОЛП соответствует известному нссинонимичному SNP.

Для каждой модели осуществляли идентификацию ОАП с помощью итеративного алгоритма, описанного в разделе 2.8. После этого в моделях определяли количество ТРуу истинно положительных результатов идентификации ОАП, и количествоТУУлг истинно отрицательных результатов. Далее, так как по условиям моделирования общее количество привнесенных «истинных» ОАП равно количеству привнесенных «ложных» ОАП, то значения чувствительности (БЫ) и специфичности (БР) рассчитывали по формулам:

3. РЕЗУЛЬТАТЫ

3.1. Идентификация высокогомологичных белков

Идентификацию высокогомологичных белков провели на примере масс-спектрометрических данных, полученных при протеомном исследовании микросомальных фракций печени человека. Белки идентифицировали последовательно в каждом из 40 срезов одномерного геля, соответствующих диапазону молекулярных масс белков от 46 до 62 кДа.

Для увеличения степени покрытия аминокислотной последовательности белков, использовали метод одномерного протеомного картирования. На одномерной карте визуализировали распределение близких по массе белков в одномерном геле, а так же определить область в геле, в которой преимущественно локализован белок (рис. 2).

3.1.1. Исследование белков в срезах одномерного геля

Идентификацию белков в каждом срезе одномерного геля осуществляли с использованием двух методов: анализ отпечатков пептидных масс и анализ отпечатков фрагментации пептидов. В диапазоне масс от 52,9 до 62,5 кДа, соответствующем молекулярным массам цитохромов Р450 человека, было идентифицировано 18 микросомальных белков, в число которых, помимо цитохромов Р450 (СУР), вошли актин (Асйп), микросо-

= ТРК/И, БРМ = ТЫм/И.

(1) (2)

мальная эпоксидгидролаза (ЕРОХ) и карбоксилэстераза (CES). Из 20 экс-прессируемых в клетках печени цитохромов Р450, при анализе срезов были идентифицированы 12 белков, в том числе представители подсемейств 1 А, 1В, 2А, 2С, 2D, 2Е, ЗА, 4А и 4F. Так как белки в пределах подсемейств обладают высокой степенью сходства аминокислотных последовательностей, то при анализе масс-спсктров в программе идентификации (Mascot) гомологичные белки идентифицировались за счет наблюдения эквивалентного набора масс-спектрометрических пиков (пептидов). Поэтому, для достоверной идентификации высокогомологичных белков требовалось обнаружить уникальные для конкретного белка протеотипические пептиды.

Protein Slices

25 26 27 28 29 30 31 32 33 34 35 36

carboxylesterase 64.7 0 0 0 0 0 0 0 0 0 0 0 0

cyplBlhum 62.0 0 0 0 0 0 0 0 0 0 0 0 0

FM03 60.7 a ■ Ш 1 0 0 0 2 0 0 0 0 0

UDP2B7 60.4 4 9 U m 4 3 2 0 0 0 0 0

ATPsyntase 60.4 0 0 0 0 0 ■ 0 0 0 0 0 0

cyp4Allhum 59.5 0 0 0 0 1 0 0 0 0 0 0

cyp4F2hum 59.4 0 8 Ш а 0 0 0 0 0 0 0 0

cyplA2hum 58.8 1 .V> 6 3 0 0 0 0 0 0 0 0

cyplAlhum 58.4 0 ШШ .2. Я 0 0 0 0 0 0 0 0 0

disulflsom 57.6 0 0 0 0 0 0 0 0 0 0 0 0

CYP3A 57.4 0 0 0 0 0 il m 0 0 0 0 0

cyp2D6hum 57.1 0 0 0 0 0 1 я 0 0 0 0 0

cyp2A 56.4 0 0 0 0 0 6 ш 19 0 0 0

cyp2Elhum 56.3 0 0 4 ■ IP 1 1 0 0 0 0 0

cyp2C 55.4 1 5 m u 8 u 5 0 0 0 0 0

EPOX 51.9 0 0 0 0 0 0 1 я ш 1? m

actin 42.0 0 0 0 0 0 0 0 0 0 0 0 0

Рис. 2: Снимок экрана программы Zoomer, на котором представлена одномерная протеомпая карта распределения белков (колонка Protein) микросомальной фракции печени человека по срезам одномерного геля (колонки Slices). Белки отсортированы по убыванию молекулярной массы. Фоном выделены срезы, относящиеся к зоне локализации соответствующего белка (группы белков). Значения в ячейках соответствуют количеству пептидов белка, обнаруженных в срезе. Прямоугольником обозначена зона локализации цитохромов Р450 подсемейства CYP3A.

3.1.2. Повышение степени покрытия аминокислотной последовательности белков

В результате протеомного картирования была создана двухмерная диаграмма распределения идентифицированных белков в срезах одномерного геля. На карте белки, относящиеся к различным подсемействам цитохромов Р450, были пространственно разделены (рис. 2). С помощью построения одномерных протеомных карт определяли зону локализации цитохромов СУР4Р2, СУР4А11, СУР2Е1, СУР2Б6, для которых нет близких гомологов (со степенью сходства аминокислотных последовательностей более 60%). Также на карте обозначали зоны локализации групп высокогомологичных белков, соответствующих подсемействам цитохромов Р450 СУРЗА, СУР2А и СУР2С.

Зона локализации для (сгруппированных по гомологии) белков представляли собой последовательности из 1-5 соседних срезов. Как показано на рисунке 2, флавин-содержащая монооксигеназа (РМОЗ) локализована в двух срезах №25 и №26, а зона локализации эпоксид-гидролазы (ЕРОХ) начинается со среза №32 и продолжается до среза №36. Если говорить о группах белков, то можно отметить, например, что формы ферментов подсемейства СУРЗА локализованы на одномерной карте в зоне с 30-го по 31-й срез.

Объединение масс-спектрометрических данных в пределах зон локализации позволило увеличить степень покрытия аминокислотной последовательности идентифицированных белков. Как показано в таблице 1, такое объединение при анализе времяпролетных масс-спектров увеличивало степень покрытия последовательности группы СУРЗА до 58%, при этом максимальная степень покрытия последовательности в отдельном срезе составляла всего 38%. Такой же эффект был достигнут и для тандемных масс-спектров — для СУРЗА степень покрытия последовательности возросла с 29% до 40%. Общее увеличение степени покрытия последовательности группы СУРЗА за счет применения двух масс-спектрометрических методов и агрегации данных в пределах зон локализации составило 27%.

Это позволило довести степень покрытия последовательности СУРЗА до уровня 65%.

Повышение степени покрытия аминокислотной последовательности белков позволило подтвердить идентификацию отдельных высокогомологичных цитохромов Р450. Так, были достоверно идентифицированы белки СУРЗА4, СУРЗА5 и СУРЗА43, степень сходства аминокислотных последовательностей которых превышает 80%. Кроме того, были выявлены пептиды, позволяющие дифференциально идентифицировать белки, входящие в подсемейства СУР2А и СУР2С, обладающие гомологией 94% и 91%, соответственно.

Таблица 1: Повышение степени покрытия аминокислотной последовательности белка за счет агрегации масс-спсктромстрических данных в пределах диапазона представленности белка. СУР — цитохромы Р450, ГОРвТ — УДФ-глюкуронозилтрансфераза, ЕРОХ — эпоксидгид-ролаза. РМР, РРР — методы идентификации по отпечаткам пептидных масс и отпечаткам фрагментации пептидов, соответственно.

Белок Максимальное покрытие последовательности в отдельном срезе, % Суммарное покрытие последовательности в зоне локализации, %

РМР ррр РМР + ррр РМР РРР РМР + ррр

СУР2Аб/7/8 38 30 48 50 35 66

СУРЗА4/5/7 38 29 51 58 40 65

ХЛЭРОТ 23 21 37 33 31 38

СУР2Е1 22 30 44 28 44 55

ЕРОХ 35 41 48 50 52 66

3.1.3. Идентификация ОАП в белках подсемейства СУРЗА цитохромов Р450 человека

Сведения о полиморфных вариантах и мутациях в генах СУРЗА загружали из ресурсов www.cypalleles.ki.se и www.pharmgkb.org. Из 200 известных однонуклеотидных замен 23 могут приводить к одноаминокис-лотным полиморфизмам в белке СУРЗА4, 12 — в СУРЗА5, и только одна мутация может транслироваться в ОАП цитохрома СУРЗА43.

Для каждого из белков подсемейства CYP3A генерировали альтернативные последовательности, содержащие ОАП. Из масс-спектров срезов одномерного геля, соответствующих зоне локализации группы белков CYP3A, отбирали такие масс-спектрометрические пики (значения m/z), которые отсутствуют в масс-спектрах других срезов геля. Также проверяли, что отсутствуют пересечения с теоретическими масс-спектрометрическими пиками других белков, зона локализации которых пересекается с зоной локализации CYP3A.

Всего было отобрано 44 масс-спектрометричсских пика, совпадающих с точностью до 0,025 Да с теоретическими масс-спектрами белков группы CYP3A, включая ОАП-содержащие изоформы. Среди них 8 пиков соответствовали протеотипическим пептидам аллельных вариантов белков подсемейства CYP3A (табл. 2). Два пептида относились к цитохрому CYP3A4, три - к CYP3A5.

Таблица 2: Содержащие ОАП пептиды белков СУРЗА4 и СУРЗА5, идентифицированные в масс-спектрах, полученных методом отпечатков пептидных масс.

Белок ОАП Пептид MH+ Да Обнаруженные значения m/z Близкие значения m/z

1 2 3 4

CYP3A4 М445Т 411ncigtr FALMNMK463 1498.75 1514.72 1569.77 1601.78 1569.77 1569.77 1601.78 1498.75 1601.78 1498.74 1514.72 1569.75 1601.77 CYP2D6 1498.79 CYP1B1 1514.72 CYP1A1 1601.75 ATPsynthase 1601.81

CYP3A4 К96Е 92TVLVEEC YSVFTNR105 1730.84 - 1730.83 - - CYP2E1 1730.84

CYP3A5 L82R 71MWGTYE GQLPVR82 1436.70 - - 1436.71 - ces 1436.74 cyp2c8 1436.60

CYP3A5 D277E 2(i7HRLDFLQL miesqnsk282 1975.01 1974.99 1975.03 - 1975.01 trypsin 1975.04

CYP3A5 D277E 2(WLDFLQLM IESQNSKE TESHK288 2393.17 - 2393.20 - 2393.15 CYP3A4 2393.19

В двух и более образцах были идентифицированы замены М445Т в CYPЗA4 и В277Е в СУРЗАБ. Замена Ь82Л в цитохроме СУРЗА5 (аллель СУРЗА5*ЗБ согласно номенклатуре ресурса СурАМев) была идентифицирована только в одном образце. Для полиморфизма Б277Е в цитохроме СУРЗА5 было идентифицировано одновременно два протеотипических

пептида. Оба пептида содержат модифицированный метионин (окисление), и отличаются за счет наличия сайтов пропуска гидролиза в одном случае со стороны N-конца, а во втором — со стороны С-конца.

Теоретические массы ОАП-содержащих пептидов сравнивали с теоретическими масс-спектрами других идентифицированных в образцах белков. Белки, в масс-спектрах которых присутствовали пики, отличающиеся от массы ОАП-содержащего пептида не более чем на 0,05 Да, приведены в последней колонке таблицы 2. Можно видеть, что для каждого из предложенных ОАП-содержащих пептидов существует соответствующий пик в масс-спектрах других белков. Например, теоретически рассчитанные массы пептидов для белков CES и CYP2C8 содержат значения m/z, совпадающие с пиком m/z=1436,70, свидетельствующем о наличии полиморфизма L82R в белке CYP3A5. Однако, маловероятно, что данный пик относится к белку CES, так как зоны локализации CES и CYP3A расположены далеко друг от друга в одномерном геле (рис. 2). В то же время, нельзя исключить принадлежность этого пика к масс-спектру белка CYP2C8, так как на протеомной карте зоны локализации CYP2C8 и CYP3A перекрываются.

Среди обнаруженных ОАП-содержащих пептидов наибольший интерес представляет первый пептид из таблицы 2, который свидетельствует о наличии замены М445Т в гем-пептиде цитохрома CYP3A4 (вариант CYP3A4*3). Данная мутация по результатам генотипирования присутствует у 4% европейцев, при этом среди жителей Восточной Европы частота данной мутации достигает 10% [Dai и др., 2001]. Было зарегистрировано четыре значения m/z, соответствующих различным комбинациям модификаций аминокислотных остатков в пептиде NCIGTRFALMNMK. Теоретическое значение m/z немодифицированного пептида составляет 1498,76 Да, в то время как массы 1514,73, 1569,77 и 1601,78 Да соответствуют комбинациям модификаций одного/двух метионинов (окисление) и модификации цистеина пропионамидом. В образце №4 все четыре значения m/z наблюдали одновременно в одном срезе (рис. 3). Кроме того, в пределах зоны локализации подсемейства CYP3A наблюдали пик, соответствующий нативному варианту данного пептида (с метионином в позиции

445, т/7=1615,78 Да). Таким образом, была подтверждена на протеомном уровне гетерозиготная экспрессия данной формы цитохрома Р450.

1

А!

1514.72

Я', Pili

Рис. 3: Масс-спектр протсолитических пептидов среза одномерного геля. Отмечены масс-спсктрометричсские пики, соответствующие пептиду МСГСТЛРАЬМКМК (МН+=1498,74), а также его химически-модифицированным вариантам: окисление метиопина (МН+=1514,72), модификация цистеина пропионамидом (МН+=1569,75), окисление двух метиоиинов и модификация цистеииа пропионамидом (МН+=1601,77).

3.2. Идентификация ОАП белков человека с помощью итеративного анализа масс-спектрометрических данных в протеомном репозитории PRIDE

3.2.1. Чувствительность и специфичность алгоритма идентификации ОАП

Задачу идентификации ОАП с помощью анализа масс-спектрометрических данных рассматривали как задачу бинарной классификации. Результатом идентификации ОАП является классификация ОАП из списка генетически-детерминированных замен на те, которые

о.зоГ5"

о

0.25-о

л

о о

о 0.20

-8

г -о

.о'

о

0.00

0.00 0.05 0.10 0.15 0.20 0.25 0.30 1 - Специфичность

Рис. 4: Диаграмма для оценки характеристик разработанного алгоритма идентификации ОАП.

подтверждаются масс-спектрометричсскими данными (положительные случаи), и те, которые не подтверждаются (отрицательные случаи).

Чувствительность (SN) алгоритма определяли как долю истинно-положительных случаев идентификации ОАП, а специфичность (вР) оценивали как долю истинно-отрицательных случаев идентификации среди всех ОАП, которые отсутствуют в анализируемом образце. Значения (1 5Р) характеризовали долю ложно-положительных результатов при идентификации ОАП.

Для валидации алгоритма идентификации ОАП, приведенного на рис. 1, использовали контрольный набор масс-спектрометрических данных Аигит Dataset. Так как очищенные рекомбинантные белки, для которых получены масс-спектры Аигит Dataset, не содержали ОАП, то их наличие имитировали в модельных вычислительных экспериментах.

Для представления результатов вычислительных экспериментов, каждую из 225 моделей, содержащих от 1 до 225 аминокислотных замен, отобразили точкой в системе координат: по оси X откладывали значения (1 5Рдг)) т.е. долю ложно-положительных результатов, а по оси У — значения чувствительности (см. рис. 4). Видно, что специфичность алгоритма в подавляющем большинстве случаев превышает 95%. Чувстви-

тельность алгоритма не превышает 30%, что объясняется низкой степенью покрытия аминокислотных последовательностей белков идентифицированными пептидами.

3.2.2. Выявление ОАП по масс-спектрам репозитория PRIDE

В результате обработки 1891 хроматомасс-спектров репозитория PRIDE были идентифицированы 53 тыс. уникальных пептидов в составе ~9 тыс. белков человека. Среднее значение степени покрытия аминокислотной последовательности составило 19% (для белков, идентифицированных минимум по двум пептидам).

Для каждого эксперимента PRIDE, в котором был идентифицирован хотя бы один белок, динамически формировали отдельную базу данных аминокислотных последовательностей. Для этого к последовательностям идентифицированных в данном эксперименте белков добавляли последовательности, содержащие предполагаемые ОАП (по одной дополнительной аминокислотной последовательности на каждый предполагаемый ОАП). Информацию о предсказанных для белка ОАП получали из базы данных UniProtKB путем анализа файла humsavar.txt.

Динамически создаваемые базы данных использовали для повторной идентификации пептидов и белков в программе Mascot с теми же параметрами, которые использовались при первой итерации. При анализе результатов повторной идентификации выявляли наличие таких пептидов, которые содержат сайт полиморфизма (то есть содержат измененный аминокислотный остаток) и позволяют однозначно идентифицировать белок.

Всего было идентифицировано 310 содержащих ОАП пептидов в 344 экспериментах репозитория PRIDE. Идентифицированные пептиды соответствовали 270 полиморфизмам белков человека; для некоторых ОАП было идентифицировано более одного пептида. Идентификация нескольких различных пептидов, содержащих один и тот же ОАП, связана с наличием сайтов пропуска гидролиза в некоторых пептидах.

Большинство ОАП (около 55%) было идентифицировано в единственном эксперименте. Однако, 22 ОАП (около 8%) были идентифицированы не менее чем в 10 экспериментах (табл. 3).

Таблица 3: Одиоаминокислотные полиморфизмы, идентифицированные в 10 и более экспериментах PRIDE. Идентификатор белка (ID) указан согласно ресурсу UniProt.

id белка ОАП Сдвиг массы Пептид (подчеркнута позиция аминокислотной замены) Эксп/ пептид Эксп/ ОАП

ici d408v -15,958 403vttsqvmlsimek415 10 26

401ikvttsqvmlsimek415 16

prkdc i3434t -12,036 312ckeeenasvtdsaelqaypalvvek3"9 17 17

yes i198v -14,016 192gayslsvr199 17 17

3ü(ivlldgvqnlr315 7

СОЗ p314l 16,031 305kvlldgvqnlr315 6 15

306vlldgvqnlraedlvgk322 2

itih4 q669l -14,975 6(i9llglpgppdvpdhaayhpfr688 14 14

al at g172w 129,058 160klyhseaftvnfwdteeak178 2 14

lfulyhseaftvnfwdteeak178 12

ant3 l131v -14,016 124lgacndtvqqlmevfk139 3 14

124lgacndtvqqlmevfkfdtisek146 11

itih2 l5c9v -14,016 533fdpakldqiesvitatsantqlvle tlaqmddlqdfvsk571 12 13

538ldqiesvitatsantqlvletlaq mddlqdfvskdk573 1

ikke e515d -14,016 509csqnitdtqeslsslnr525 12 12

АРОВ n273k 14,052 2g3eqhlflpfsyk273 12 12

al at e400d -14,016 ^"fnkpfvflmidqntk404 и и

АРОВ v2092l 14,016 20s6qtiivvlenvqr2097 9 и

2084nrqtiivvlenvqr2ü97 2

АРОВ t3732i 12,036 3725vladkfiipglk3736 7 и

3730FIIpGLK3736 4

cfah e936d -14,016 933sppdishgvvahmsdsyqygeevtyk958 10 10

Согласно данным, приведенным в таблице 3, в наибольшем количестве экспериментов наблюдали потенциальный полиморфизм остатка в первичной структуре ингибитора протеазы С1 (1С1_НиМАМ). Наличие полиморфизма определялось на основании масс-спектрометрической идентификации двух пептидов, один из которых был длиннее на два остатка с 1М-конца за счет пропущенного сайта гидролитического расщепления. Предполагаемая замена аспарагиновой кислоты на валин должна приводить к уменьшению молекулярной массы пептида на 16,01 Да. Экспериментальное значение, приведенное в таблице 3, составляет —15,958 Да. Несмотря на то, что разница расчетной и экспериментальной массы находится в пределах точности измерительного метода, следует указать, что в данном

случае утверждать о наличии ОАП в ингибиторе протеазы некорректно. Дело в том, что в обоих иротеотипических пептидах присутствует мети-онин, который может подвергаться окислению в ходе пробоподготовки. Окисление метионина также дает сдвиг массы на 16 Да, то есть различить окисленный пептид и пептид, содержащий ОАП, невозможно. Среди всех выявленных ОАП примерно в 8% случаев сдвиг массы, обусловленный заменой остатка, совпадает со сдвигом в результате наиболее распространенных пост-трансляционных модификаций белков.

Во второй строке таблицы 3 указан ОАП, соответствующий замене изолейцина на треонин в позиции 3434 каталитического домена ДНК-зависимой протеинкиназы PRKDC. Пептид, содержащий данную замену, был идентифицирован в 17 экспериментах, при этом среднее значение отклонения экспериментальной массы от теоретической не превышает 0,01 Да. Данный полиморфизм не связан с каким-либо заболеваниям, и частота встречаемости данной мутации, по сведениям dbSNP, является довольно высокой (4-40%). Сдвиг массы на -12,036 Да, обусловленный данной заменой, не совпадает ни с одной из известных пост-трансляционных модификаций.

Разработанный алгоритм идентификации ОАП в масс-спектрометрических данных позволяет определять случаи гетерозиготной экспрессии аллельных вариантов, то есть одновременно идентифицировать нативный белок, и его вариант, содержащий одноаминокислотный полиморфизм. В эксперименте PRIDE №8320 с высокой степенью достоверности (Mascot Score 118,6, E-value 2,9е-11) был идентифицирован состоящий из 30 а. о. пептид SSTSPTTNVLLSPLSVATALSALSLGAEQR, входящий в состав белка PEDF_HUMAN. Пептид содержит замену метионина в позиции 72 на треонин. В том же эксперименте (но с использованием другого масс-спектра) был идентифицирован нативный вариант этого белка. Для нативного варианта белка был идентифицирован протеотипический пептид SSMSPTTNVLLSPLSVATALSALSLGAEQR (Mascot Score 90).

3.2.3. Связь выявленных ОАП с заболеваниями человека

Проведенный анализ масс-спектрометрических данных большого количества протеомных экспериментов позволяет получить представление о вариабельности протсома человека. Среди идентифицированных полиморфизмов наибольшее количество, 163 ОАП, являются нейтральными ОАП. Количество ОАП, ассоциированных с заболеваниями, практически в три раза меньше, чем нейтральных, и составляет 51 ОАП.

В наибольшем количестве экспериментов были идентифицированы ОАП, связанные с дефицитом регулятора свертываемости крови антитромбина III ( М1М:613118). В 14 экспериментах наблюдали замену лейцина (Ь) на валин (V) в позиции 131, и еще в 4 экспериментах была обнаружена замена пролина (Р) на треонин (Т) в позиции 112 белка АМТЗ_Н11МАМ.

Полиморфизм М6971 рецептора нейротрофического фактора мозга ЫТ11К2, являющегося биомаркером онкозаболеваний легких [ВиШг^ег и др., 2010], был обнаружен в двух экспериментах, в которых с использованием аффинной экстракции киназ исследовали киназы клеток линии К-562. Клеточная линия К-562 была получена из миелоидных клеток костного мозга пациента, страдавшего хроническим миелобластным лейкозом. Можно предположить, что экспрессия полиморфного варианта белка МТ11К2 является маркерным признаком неопластичсских заболеваний крови.

В результате работы были выявлены одноаминокислотные полиморфизмы, подтверждающие на протеомном уровне трансляцию генетических мутаций, ассоциированных с тяжелыми формами заболеваний. Среди них - дефекты кератинов, вызывающие заболевания кожи, амилоидозы, связанные с накоплением транстиретина, а также боковой амиотрофический склероз.

Обсуждая полученные результаты, следует провести сравнение частоты встречаемости несинонимичных и полиморфизмов а.о., соответствующих этим БИР. Обращает внимание, что если среди аннотированных в базе данных ИтРпЛ геномных замен около 30% ассоциированы с различными заболеваниям, то на протеомном уровне содержание таких замен не превышает 20%.

Можно рассматривать несколько причин для превалирования нейтральных замен в протеомных данных, в том числе причины искусственного характера. Однако, полученный результат объясним с биологических позиций: например, при гетерозиготном генотипе экспрессия продукта мутантного аллеля снижена по сравнению с нормальной формой. Как следствие, в масс-спектрометрических экспериментах регистрируются пики той формы белка, которая присутствует в более высоких концентрациях, а продукт мутантного аллеля не идентифицируется. В случае нейтральной или слабовредной мутации, экспрессия аллельных вариантов происходит примерно на одном уровне, поэтому вероятность обнаружения аллельного варианта на протеомном уровне довольно высока [Wang и др., 2001].

Обобщая результаты, следует указать, что анализ большого количества разнородных данных, содержащихся в международном протеомном репозитории, позволил верифицировать состоятельность разработанного алгоритма. Также установлено, что по сравнению с геномом, в протеоме возрастает доля нейтральных мутаций.

4. ВЫВОДЫ

1. Проведено протеомное картирование масс-спектрометрических данных, включающее идентификацию белков методом отпечатка пептидных масс с последующим анализом, направленным на выявление белок-специфичных протсотипических пептидов. На примере белков надсемейства цитохромов Р450 показано, что за счет картирования зон локализации белков в геле степень покрытия последовательности идентифицированными пептидными фрагментами увеличивается на 27%.

2. Идентифицированы протеолитические пептиды, специфичные для форм цитохромов Р450 CYP3A4 и CYP3A5, идентичность последовательностей которых составляет 82%. Выявлены аллельные варианты трансляции цитохромов CYP3A4 и CYP3A5, содержащие одноами-нокислотные полиморфизмы M445N (ЗА4), К96Е (ЗА4), L82R (ЗА5) и D277E (ЗА5).

3. Разработан итеративный алгоритм, предназначенный для идентификации одноаминокислотных полиморфизмов белков по тандсм-ным масс-спектрам протеолитических пептидов. При тестировании на контрольном наборе «Aurum Dataset» алгоритм выявления полиморфизмов показал специфичность более 95%. Чувствительность алгоритма была на уровне 30%, что соответствует средней степени покрытия последовательностей, включенных в контрольный набор.

4. В результате анализа масс-спектрометрических экспериментов, депонированных в репозитории PRIDE, выявлено в общей сложности 270 одноаминокислотных полиморфизмов в 156 белках человека, в том числе 51 ОАП (45 белков) ассоциированы с заболеваниями, включая нарушения в системе свертываемости крови и системные амилоидозы.

5. СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Chernobrovkin A.L., Lisitsa A.V., Ponomarenko Е.А., Archakov A.I. Bioinformatic approach for bottom-up proteotyping // Сборник материалов международной конференции HUPO. Toronto, Canada. 2009. P. 18.

2. Lisitsa A.V., Petushkova N.A., Thiele H., Moshkovskii S.A., Zgoda V.G., Karuzina I.I., Chernobrovkin A.L., Skipenko O.G., Archakov A.I. Application of Slicing of One-Dimensional Gels with Subsequent Slice-by-Slice Mass Spectrometry for the Proteomic Profiling of Human Liver Cytochromes P450 // Journal of Proteome Research. 2010. V. 9(1). P. 95103.

3. Chernobrovkin A.Li, Lisitsa A.V., Thiele G., Archakov A.I. Enrichment of the Sequence Coverage by Assemblage of the Mass-Spectrometric Data from Adjacent Slices of One-Dimensional Gel Electrophoresis // Сборник материалов международной конференции СЕЕРС. 2008. Р. 42.

4. Чернобровкин А.JI., Лисица A.B., Арчаков А.И. Итеративный анализ масс-спектров для определения генетически детерминированного полиморфизма белков // Сборник трудов конференции «Химическая биология — Фундаментальные проблемы бионанотехнологии». Новосибирск. 2009. С. 101.

5. Чернобровкин А.Л., Митькевич В.А., Попов И.А., Индейкина М.И., Ильгисонис Е.В., Лисица A.B., Арчаков А.И. Выявление одноаминокислотных полиморфизмов белков в масс-спектрах пептидных фрагментов // Доклады Академии Наук. 2011. V. 437(4). Р. 561-564.

6. Чернобровкин А.Л., Трифонова О.П., Петушкова H.A., Пономаренко Е.А., Лисица A.B. Выбор допустимой погрешности определения массы пептида при идентификации белков методом пептидного картирования // Биоорганическая химия. 2011. Т. 37(1). С. 132-136.

7. Арчаков А.И., Згода В.Г., Лисица A.B., Мошковский С.А., Чернобровкин А.Л. Способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа // Патент на изобретение РФ №2408011, приоритет от 30.01.2009.

Заказ № 11-П/03/2012 Подписано в печать 03.03.2012 Тираж 100 экз. Усл. пл. 1,25

ООО "Цифровичок", тел. (495) 649-83-30 www.cfr.ru; е-таИ:info@cfr.ru

Текст научной работыДиссертация по биологии, кандидата биологических наук, Чернобровкин, Алексей Леонидович, Москва

61 12-3/739

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ «НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ БИОМЕДИЦИНСКОЙ ХИМИИ ИМЕНИ В.Н.ОРЕХОВИЧА» РОССИЙСКОЙ АКАДЕМИИ

МЕДИЦИНСКИХ НАУК

На правах рукописи

ЧЕРНОБРОВКИН АЛЕКСЕЙ ЛЕОНИДОВИЧ

АНАЛИЗ МАСС-СПЕКТРОВ ПЕПТИДНЫХ ФРАГМЕНТОВ ДЛЯ ИДЕНТИФИКАЦИИ ГЕНЕТИЧЕСКИ-ДЕТЕРМИНИРОВАННОГО

ПОЛИМОРФИЗМА БЕЛКОВ

03.01.09 - математическая биология, биоинформатика

Диссертация на соискание ученой степени кандидата биологических наук

Научный руководитель: д.б.н., член-корр. РАМН Лисица А. В.

Москва 2012

СПИСОК СОКРАЩЕНИЙ ш.о. — шкалированная оценка а.о. — аминокислотный остаток и.о. — нуклеотидный остаток ОАП — одноаминокислотный полиморфизм

SNP - single nucleotide polymorphism, однонуклеотидный полиморфизм PMF - peptide mass fingerprinting, метод отпечатков пептидных масс PFF - peptide fragment fingerprinting, метод отпечатков фрагментации пептидов MALDI - matrix-assisted laser desorbtion/ionization, матрично-активированная лазерная десорбция/ионизация

TOF MS - time-of-flight mass-spectrometry, времяпролетная масс-спектрометрия ВЭЖХ — высокоэффективная жидкостная хроматография MS/MS — тандемная масс-спектрометрия

Содержание

1 ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ.........................................................................................5

2 ОБЗОР ЛИТЕРАТУРЫ......................................................................................................10

2.1 Масс-спектрометрия в протеомике............................................................................12

2.1.1 Общие принципы..................................................................................................12

2.1.2 Протеомный анализ с использованием масс-спектрометрии...........................16

2.1.3 Идентификация белков методом отпечатков пептидных масс........................19

2.1.4 Идентификация белков методом отпечатков фрагментации пептидов...........21

2.2 Интерпретация результатов масс-спектрометрической идентификации белков. .27

2.2.1 Определение списка идентифицированных белков...........................................27

2.2.2 Идентификация высокогомологичных белков..................................................31

2.2.3 Базы данных аминокислотных последовательностей белков..........................34

2.3 Масс-спектрометрический анализ продуктов одного гена......................................37

2.3.1 Протеотипирование и популяционная протеомика...........................................37

2.3.2 Идентификация микрогетерогенности белков методом «сверху-вниз»..........39

2.3.3 Идентификация генетически-детерминированного полиморфизма белков методом «снизу-вверх»..................................................................................................41

2.3.4 Базы данных полиморфизмов белков и генов...................................................47

2.3.5 Репозитории масс-спектрометрических данных...............................................50

3 МАТЕРИАЛЫ И МЕТОДЫ..............................................................................................58

3.1 Материалы...................................................................................................................58

3.1.1 Масс-спектрометрические данные для белков микросомальной фракции печени человека..............................................................................................................58

3.1.2 Контрольный набор масс-спектров «Aurum Dataset».......................................59

3.1.3 Масс-спектрометрические данные протеомного репозитория PRIDE............60

3.1.4 Базы данных аминокислотных последовательностей белков человека..........60

3.1.5 Данные о возможных полиморфизмах белков человека..................................61

3.2 Методы.........................................................................................................................62

3.2.1 Веб-сервер идентификации белков по масс-спектрам......................................62

3.2.2 Пакетная обработка масс-спектров методом отпечатков пептидных масс... .62

3.2.3 Пакетная обработка тандемных масс-спектров...............................................66

3.2.4 Одномерное протеомное картирование..............................................................67

3.2.5 Программная реализация итеративного алгоритма идентификации ОАП.....70

3.2.6 Валидация алгоритма идентификации ОАП......................................................74

4 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ..................................................................................76

4.1 Увеличение степени покрытия аминокислотных последовательностей идентифицированными пептидами................................... .................................................77

4.1.1 Идентификация белков в срезах геля.................................................................79

4.1.2 Одномерные протеомные карты и их свойства.................................................81

4.1.3 Выявление высокогомологичных белков надсемейства цитохромов Р450 за счет увеличения степени покрытия аминокислотных последовательностей идентифицированными пептидами................................ ...............................................86

4.2 Идентификация ОАП в белках надсемейства цитохромов Р450.............................92

4.3 Алгоритм идентификации ОАП...............................................................................100

4.3.1 Итеративная схема обработки тандемных масс-спектров..............................101

4.3.2 Чувствительность и специфичность алгоритма идентификации ОАП.........103

4.4 Применение итеративного алгоритма для выявления ОАП в масс-спектрометрических данных протеомного репозитория PRIDE..................................108

4.4.1 Исходные данные, используемые для выявления ОАП..................................108

4.4.2 Идентификация пептидов и белков с использованием масс-спектрометрических данных, загруженных из репозитория PRIDE.......................112

4.4.3 Идентификация одноаминокислотных полиморфизмов................................120

4.5 Анализ идентифицированных ОАП.........................................................................126

4.5.1 Анализ ОАП-содержащих пептидов.................................................................126

4.5.2 Связь выявленных ОАП с заболеваниями человека.......................................132

5 ВЫВОДЫ..........................................................................................................................140

6 Список литературы...........................................................................................................141

1 ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ

В базе данных Ensembl [Hubbard, 2002] содержатся сведения о 20 469 кодирующих генов, полученные на основе результатов сборки генома человека, выполненной в Национальном центре биотехнологической информации США (февраль 2009). Небольшое число генов позволяет заключить, что сложность живых систем достигается на уровне регуляции транскрипции, трансляции, и пост-трансляционных модификаций. Альтернативный сплайсинг и такие модификации, как фосфорилирование, гликозилирование, наряду с протеолитическим процессингом, приводят к формированию многообразия белков, количество которых на несколько порядков превышает количество генов. Проведенные различными методами оценки показывают, что протеом человека может насчитывать несколько миллионов различающихся по своему химическому строению белков [Archakov и др., 2009; Archakov и др., 2007].

Традиционный подход к исследованию протеома основан на использовании иммуногистохимического окрашивания тканевых срезов. Первый вариант протеомного атласа человека пыл построен с применением антител [Uhlén и др., 2005]. Использование биологических микрочипов, содержащих нанесенные на них антитела, позволяет идентифицировать и количественно измерить до нескольких сотен белков в одном образце [Rubina и др., 2008]. Однако данный подход имеет ограничения, которые связаны с необходимостью наработки и верификации антител, недостаточной специфичностью за счет перекрестных взаимодействий и относительно низкой аффинностью комплексов антиген-антитело. В связи с этим особую важность для исследования протеома приобрел более универсальный и не требующий иммуноспецифичных реагентов метод идентификации белков - биологическая масс-спектрометрия [Aebersold, Mann, 2003].

При масс-спектрометрическом анализе биоматериала идентификация белковых молекул осуществляется путем сопоставления измеренных масс-зарядных характеристик белков и/или их протеолитических фрагментов с теоретическими значениями, вычисленными на основании закодированных в геноме аминокислотных последовательностей. Необходимо учитывать, что в последовательности генома в явном виде не содержится информации о сайтах

альтернативного сплайсинга и о возможных пост-трансляционных модификациях. Выявление случаев альтернативного сплайсинга возможно на основании экспериментальных данных: источником сведения о сплайс-изоформах являются базы данных кодирующих ДНК [Stamm и др., 2006]. Выявление посттрансляционных модификаций осуществляется с использованием высокоточной масс-спектрометрии белков [Nedelkov, 2008] или с применением тандемной масс-спектрометрии пептидных фрагментов [Beck и др., 2011]

Наряду с альтернативным сплайсингом и пост-трансляционной модификацией, разнообразие белковых молекул увеличивается за счет трансляции несинонимичных однонуклеотидных полиморфизмов (non-synonymous Single Nucleotide Polymorphism, nsSNP). Установление наличия nsSNP производится с использованием генотипирования, тогда как подтверждение наличия соответствующей замены остатка в первичной структуре белка, то есть выявление одноаминокислотных полиморфизмов (ОАП, Single Amino Acid Polymorphism, SAP), относится к задачам протеотипирования [Rodriguez и др., 2006; Shi и др., 2008; Roth и др., 2008].

Важность идентификации и исследования на белковом уровне альтернативного сплайсинга, ОАП и пост-трансляционных модификаций обусловлена влиянием данных процессов на уровень экспрессии и функциональные свойства белков. Известно, что изменение активности или уровня экспрессии белков может приводить к возникновению и развитию социально-значимых заболеваний, включая онкологические [Srebrow, Kornblihtt, 2006], сердечно-сосудистые [Nedelkov, 2008; Garcia-Blanco, Baraniak, Lasda, 2004; Sarkozy и др., 2009; Yip и др., 2008] и нейродегенеративные [Garcia-Blanco, Baraniak, Lasda, 2004; Jeffrey L. Cummings, 2005] заболевания.

В геноме установлено наличие около 65 тысяч несинонимичных полиморфизмов, предположительно транслируемых в ОАП, причем более 30% предположительно приводят к изменению функциональных свойств белков [Yip и др., 2008]. Поскольку изменение активности белков связано с развитием заболеваний, то исследования ОАП необходимы для определения структурных причин, лежащих в основе наблюдаемых функциональных нарушений [Bunger и др., 2007]. В задачи протеотипирования входит качественное и количественное определение экспрессии аллельных вариантов генов на протеомном уровне [Roth

и др., 2008], а также мониторинг частоты встречаемости экспрессируемых аллельных вариантов белков на популяционном уровне [Nedelkov, 2008].

Идентификация ОАП в высокопроизводительном режиме с использованием масс-спектрометрии сопряжена с техническими ограничениями. Для задачи протеотипирования наиболее адекватным является подход «сверху-вниз», то есть масс-спектрометрия интактных белков (а не их фрагментов). Однако, чувствительность такого подхода невелика, на уровне 10ч-10 5 М. Как следствие, обеспечивается идентификация десятков, реже сотен, и, только в исключительных случаях до тысячи белков. Наиболее часто в биологической масс-спектрометрии применяют другой подход — «снизу-вверх», в котором наличие в образце белка устанавливается путем идентификации его протеолитических фрагментов (пептидов) [Aebersold, Mann, 2003]. В большинстве случаев для идентификации белка достаточно небольшого количества пептидов, которые в совокупности могут составлять не более 5% последовательности биополимера. Для оставшейся части аминокислотной последовательности белка невозможно установить наличие/отсутствие химических модификаций аминокислотных остатков или аминокислотных полиморфизмов.

Для идентификации одноаминокислотных полиморфизмов белков человека с использованием биологической масс-спектрометрии необходимо повысить степень покрытия аминокислотной последовательности белка за счет выявления дополнительных протеолитических пептидов белка. Это возможно в результате проведения эксперимента с большим числом частично или полностью повторяющихся масс-спектрометрических анализов [Lisitsa и др., 2010]. Кроме того, в рамках одного исследования можно объединять данные протеомных экспериментов, выполненных множеством исследовательских групп. Доступ к обширной коллекции масс-спектров предоставляется различными протеомными репозиториями [Vizcaino, Foster, Martens, 2010], в наиболее популярном из которых — PRIDE (Protein Identification Database) [Martens и др., 2005] -хранятся результаты более 13 тысяч протеомных экспериментов. Чем выше окажется степень покрытия аминокислотной последовательности белка идентифицированными пептидами, тем больше вероятность подтвердить наличие или отсутствие одноаминокислотных замен в структуре белка.

При наличии обширного объема масс-спектрометрических данных решение задачи протеотипирования возможно за счет использования вычислительных методов биоинформатики. Например, анализ масс-спектрометрических данных может осуществляться с использованием баз данных экспрессируемых фрагментов (EST), в которых содержится информация о транслированных вариантах несинонимичных полиморфизма генов [Choudhary и др., 2001b]. Второй способ, реализованный во многих программах идентификации белков, представляет собой сравнение масс-спектров с базой данных теоретических последовательностей белков, допускающий наличие неточностей в виде замен аминокислотных остатков [Creasy, Cottrell, 2002].

Недостатки указанных выше подходов хорошо известны [Matthiesen, Amorim, 2010; Menschaert и др., 2010]. В базах данных экспрессируемых фрагментов содержится избыточная информация, включая ошибки секвенирования, что усложняет анализ результатов масс-спектрометрического исследования [Choudhary и др., 2001b]. Анализируя образец, в котором идентифицировано несколько сотен белков, полученные масс-спектры необходимо сопоставлять с накопленными за десятки лет сотнями тысяч транскриптов, в числе которых содержится более 5% ошибок [Nagaraj, Gasser, Ranganathan, 2007]. При анализе масс-спектров с допущением возможных неточностей в базе данных, игнорируется информация о реально существующих несинонимичных заменах, которые были установлены генотипированием. Искусственные допущения, введенные в базу данных или в алгоритм идентификации белков, приводят к снижению достоверности результатов. Указанные недостатки существующих методов протеотипирования обуславливают необходимость совершенствования вычислительных подходов к идентификации ОАП.

Целью работы являлась разработка способа анализа масс-спектрометрических данных для идентификации единичных аминокислотных полиморфизмов, возникающих в результате трансляции несинонимичных нуклеотидных замен в соответствующих генах, и применение разработанного способа для выявления аминокислотных замен в белках человека. Для достижения цели решались следующие задачи:

1. Провести обработку масс-спектров пептидных фрагментов для повышения степени покрытия аминокислотных последовательностей белков идентифицированными пептидами.

2. На модельном наборе масс-спектрометрических данных, обеспечивающих высокую степень покрытия последовательностей, разработать метод выявления одноаминокислотных замен в белках человека.

3. Обобщить метод выявления одноаминокислотных замен в форме универсального алгоритма обработки тандемных масс-спектров; оценить чувствительность и специфичность созданного алгоритма.

4. Применить созданный алгоритм для обработки репозитория масс-спектрометрических данных, определить одноаминокислотные полиморфизмы и охарактеризовать белки человека, содержащие выявленные полиморфизмы.

2 ОБЗОР ЛИТЕРАТУРЫ

Термин «протеом» - полная совокупность экспрессируемых в организме белков — был впервые предложен Марком Вилкинсом в связи с обозначившейся необходимостью дополнить знания о геномах соответствующей информацией о кодируемых в них белках [Wilkins и др., 1996]. Объектом исследования при анализе протеома может выступать как целый организм, так и клеточный компонент, ткань, субклеточная структура, например, ядро, микросомальная фракция и др. [Bell и др., 2007].

Результаты проведения широкомасштабной инвентаризации белков с использованием масс-спектрометрии были опубликованы в работе Шевченко и соавторов в 1996 году [Shevchenko и др., 1996]. Появление биологической масс-спектрометрии ознаменовало наступление эры высокопроизводительных постгеномных технологий, позволяющих в результате проведения одного эксперимента получить информацию о генах и белках в масштабе всего организма. К постгеномным технологиям, кроме протеомики, относятся также геномика и транскриптомика. При анализе генетического материала постгеномные технологии позволяют устанавливать наличие полиморфизма генов с применением полногеномного ре-секвенирования или высокоплотного картирования однонуклеотидных замен (SNP).

Существующие подходы к исследованию многообразия белков можно разделить на два направления. В первом случае перед постановкой эксперимента заранее задано, идентификацию каких именно белковых молекул планируется провести. При таком подходе идентификацию белков проводят с использованием антител, которые применяют для гистохимического окрашивания тканевых срезов с последующим получением микрофотографий клеток. На микрофотографии среза флуоресцирующие участки соответствуют местам локализации выявляемого белка-антигена, причем интенсивность флуоресценции позволяет получить количественную оценку содержания этого б