Бесплатный автореферат и диссертация по биологии на тему
Сети крупномасштабных данных генотипической и экспрессионной вариабельности генома человека как прогностический инструмент при полигенных заболеваниях
ВАК РФ 03.02.07, Генетика
Автореферат диссертации по теме "Сети крупномасштабных данных генотипической и экспрессионной вариабельности генома человека как прогностический инструмент при полигенных заболеваниях"
На правах рукописи
40440«*"
ДОСЫМБЕКОВ Дамир Нуртасович
СЕТИ КРУПНОМАСШТАБНЫХ ДАННЫХ ГЕНОТИПИЧЕСКОЙ И ЭКСПРЕССИОННОЙ ВАРИАБЕЛЬНОСТИ ГЕНОМА ЧЕЛОВЕКА КАК ПРОГНОСТИЧЕСКИЙ ИНСТРУМЕНТ ПРИ ПОЛИГЕННЫХ ЗАБОЛЕВАНИЯХ
03.02.07 - генетика 03.01.09 - математическая биология, биоинформатика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук
Москва-2011
1 7 Г^р 20'1
4840648
Работа выполнена в лаборатории системной биологии Учреждения Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва
Научный руководитель:
кандидат биологических наук
Никольская Татьяна Анатольевна, Учреждение Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва
Официальные оппоненты:
доктор биологических наук, профессор
Пирузян Элеонора Суреновна, Учреждение Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва
кандидат биологических наук
Дмитрий Иосифович Фришман,
Технический университет Мюнхена, г. Мюнхен,
Германия
Ведущее учреяедение:
Московский государственный университет имени М.В.Ломоносова, факультет биоинженерии и биоинформатики, г. Москва
Защита состоится «З-/ » М&^лМЬ-_2011 года в «/У-"» часов на заседании
диссертационного совета Д 002.214.01 при Учреждении Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, по адресу: 119991, ГСП-1, Москва, ул. Губкина, д. 3. Факс: 8(499) 132-89-62, электронный адрес: aspirantura@vigg.ru. адрес в Интернете: www.vigg.ru
С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН.
Автореферат разослан « » 2011г.
Ученый секретарь / /
диссертационного совета, I / х.
кандидат биологических наук I уЛ ССЛ/ ) Т. А. Синелыцикова
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Достижения последних десятилетий в сфере молекулярной биологии, произошедших одновременно с технологическим прорывом, обеспечили взрывной рост объема информации о биологических системах и их компонентах. Это выразилось в возникновении технологий крупномасштабного скрининга, с помощью которых стало возможным изучать клетку и механизмы ее функционирования на всех уровнях организации живой материи (РНК, белки, каскады белковых взаимодействий). Кроме того, появились методы, позволяющие оценивать состояние клетки по составу метаболитов, паттернам метилирования промоторных областей генов или определять сайты связывания белков с ДНК.
Главное преимущество вышеперечисленных методов состоит в том, что они способны дать исследователю всеобъемлющую картину изменений, происходящих на каждом из уровней клеточной организации. Но это достоинство крупномасштабных методов: всецело и полноценно охватывать состояние клетки на каком-то одном из уровней клеточной организации, - является одновременно и недостатком; например, по полной картине одномоментного изменения экспрессии генов в клетке очень трудно понять, что же именно стало причиной этого изменения и какова доля и состав тех генов, которые отвечают за патологию относительно массива остальных генов, которые отвечают за гомеостаз, базовые биологические процессы (репликация ДНК, синтез белка и т.д.). Еще труднее соотнести их с определенными фенотипическими проявлениями изучаемого состояния.
По мере накопления массивов крупномасштабных (постгеномных) данных все острее становится необходимость их корректной обработки и интерпретации. Поскольку эти массивы данных содержат информацию о десятках тысяч генов или белков, традиционные методы анализа данных, рассчитанные на обработку информации об одном или нескольких объектах, в данном случае работают плохо. Другая сложность состоит в том, что, даже имея информацию о состоянии всех компонентов клетки и их функциях, невозможно установить причинно-следственные связи между их изменениями и патологическими изменениями клетки.
С точки зрения изучения биологических процессов необходимо рассматривать сразу несколько уровней клеточной организации: ДНК-РНК-белок-сигнальный
путь, на каждом из которых могут происходить изменения, обуславливающие возникновение и развитие патологии. Эта общепринятая концепция вплотную подводит нас к необходимости интеграции и совместного анализа различных типов крупномасштабных, или постгеномных данных.
Один из актуальных на данный момент подходов к решению этой задачи предполагает конструирование глобальной биологической сети - схемы взаимодействующих белков, метаболитов и нуклеиновых кислот клетки. На эту глобальную сеть в дальнейшем можно картировать все множества объектов из различных типов анализируемых данных, связанных с патологией. Возможность анализа характеристик сетей, которые образуют различные типы данных, позволит строить гипотезы об относительном вкладе каждого уровня организации в фенотип патологии, и помимо этого проследить причинно-следственные связи между ними.
Цели и задачи исследования. Целью данной работы была попытка продемонстрировать универсальность и эффективность совместного применения интерактомного и функционального анализа. А именно использовать методы интерактомного анализа, которые включают в себя анализ топологии сети и ее компонентный состав, распределение вершин по белковым классам и оценка взаимосвязей как внутри самих, так и относительно других данных, и сопоставить с результатами функционального анализа. Для этого были использованы различные типы крупномасштабных данных, как экспрессионные, так и геномные, находящиеся на разных стадиях статистической обработки.
Для достижения данной цели были поставлены следующие задачи:
1. Идентифицировать списки конститутивных и тканеспецифичных генов для 31 ткани, используя необработанные данные по экспрессии.
2. Проанализировать полученные списки методами интерактомного и функционального анализа
3. Идентифицировать ампликоны, характерные для рака молочной железы, используя статистически обработанные данные БОТ-чипов.
4. Определить причинно-следственные связи между ампликомом и мутомом в раке молочной железы используя интерактомный анализ
5. Произвести анализ 262 моделей, построенных 33 различными лабораториями в рамках международного проекта МАС^С II с целью поиска корреляций между точностью модели и ее топологическими характеристиками и функциональными свойствами
6. Сделать заключение об эффективности и информативности интерактомного анализа и перспективе его применения в будущем.
Научная новизна. 1) Впервые был применен интерактомный анализ -совокупность методов оценки топологических характеристик, белкового состава и взаимосвязанности сетей. 2) Впервые было продемонстрировано, что характеристики сетей согласуются с результатами функционального анализа и отражают биологическую сущность каждого фенотипа. 3) Впервые была высказана гипотеза, что соматические мутации играют ведущую роль относительно амплификации в раке молочной железы. 4) Впервые было показано, что экспрессионные классификаторы для одного и того же фенотипического признака, созданные с помощью различных математических моделей, образуют сети со сходными характеристиками.
Практическое значение. Изучение комплексных полигенных заболеваний, таких как рак молочной железы, сопряжено с рядом трудностей. Особенно стоит отметить проблему оценки значимости относительного вклада изменений на каждом из уровней организации информации в клетке. Помимо этого существует проблема выявления взаимосвязи между изменениями на разных уровнях: ДНК-РНК-белок-сигнальный путь. Методы интерактомного анализа позволяют выявить скрытые топологические особенности биологической сети, которую образуют анализируемые данные, которые нельзя определить, используя только методы функционального анализа. В ходе данной работы была дана характеристика взаимосвязи между амплификациями и мутациями рака молочной железы, что является существенным шагом к пониманию этиологии данного заболевания. Исследование механизмов возникновения и развития заболевания позволит разработать наиболее эффективные методы профилактики, диагностики и лечения. Совершенствование существующих и разработка новых инструментов интерактомного анализа совместно с увеличением и уточнением глобальной сети белок-белковых взаимодействий является перспективным направлением в плане изучения различных генетических заболеваний.
Апробация результатов работы. Результаты данной диссертационной работы были представлены на межлабораторном научном семинаре Отдела геномики Института общей генетики им. Н. И. Вавилова РАН от «22» октября 2010 г.
Декларация участия автора. Функциональный анализ данных по экспрессии генов из 31 образца тканей, а также геномных данных по соматических мутациям и амплификациям рака молочной железы проводился автором совместно с Евгением Свиридовым. Статистическая обработка и получение первичных значений амплификаций была выполнена Яо Джуном. Функциональный анализ экспрессионных классификаторов проводился автором совместно с Мариной Бессарабовой, Вей-Веем Ши и Золтаном Дезсо. Идентификация ампликонов на основании первичных значений по амплификации была произведена автором самостоятельно. Интерактомный анализа для всех использованных в работе данных был произведен автором самостоятельно. Семьдесят процентов материала было получено лично автором.
Публикации. По материалам диссертации опубликовано 3 статьи в журналах, включенных в перечень научных журналов и изданий, рекомендованных ВАК Минобрнауки России (ВМС Biology, 2008; Cancer Research, 2008; Pharmacogenomics Journal, 2010 г.).
Структура и объем диссертации. Диссертационная работа состоит из введения, списка сокращений, списка терминов, обзора литературы, материалов и методов, результатов, обсуждений, выводов, приложений и списка цитируемой литературы. Работа изложена на -/У^ страницах машинописного текста, включает %3 таблиц и рисунков. Список цитируемых литературных источников включает i%3 наименований.
Благодарности. Автор считает приятным долгом выразить признательность своему руководителю Никольской Т.А за всестороннюю помощь в работе над диссертацией. Автор благодарен за помощь в сборе и анализе материала и продуктивные обсуждения коллегам: Бессарабовой М.О, Ишкину A.A., Никольскому Ю.В., Свиридову Е.А., Ши В., Дезсо 3., а также все сотрудникам лаборатории системной биологии. Особую признательность автор выражает ФББ МГУ им М.В. Ломоносова, всем преподавателям и учащимся за одни из лучших лет в жизни автора, которые определили его цели в жизни.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Т. Обзор литературы. Обзор литературы состоит из 3 разделов. В первой части обзора рассмотрены уровни организации клеточной информации: ДНК-РНК-белок-сигнальный путь, и то, как изменения на этих уровнях могут влиять на фенотипические признаки клетки, при этом отмечается, что патологические проявления могут являться результатом многоуровневых системных нарушений. Следующая часть обзора описывает разнообразие видов крупномасштабных данных, основные стратегии их использования на примере экспрессионных данных, особое внимание уделяется проблемам, которые возникают при работе с подобными данными. В заключительной части рассматриваются методы системной биологии. Подробно описываются типы, способы создания и свойства биологических сетей, а также типы функциональных онтологий. Детально описывается интерактомный анализ - совокупность методов анализа топологических свойств биологических сетей.
2. Материалы и методы
2.1. Материалы. Данные для изучения экспрессии генов в образцах 31 различных тканей и определения списков конститутивных и тканеспецифичных генов для каждой из них были предоставлены компанией Applied Biosystems (Калифорния, США). Использованные экспрессионные данные доступны в публичном репозитории GEO NCBI (GSE7905).
Данные по амплификациям для 191 образца рака молочной железы были предоставлены институтом рака Дана Фабер (Бостон, США). Для этого были использованы SNP-данные 191 эксперимента, из которых 154 представляли непосредственно образцы опухоли, взятых у пациентов, а остальные 37 раковые клеточные линии. Данные о соматических мутациях рака молочной железы, совокупность которых представляют собой «мутом», были взяты из работ по полногеномному скринингу мутаций [Greenman et al. 2007; Wood et al. 2007].
Также были проанализированы экспрессионные классификаторы, которые были получены в рамках международного проекта Microarray Quality Control (MAQC), целью которого является оценка качества экспрессионных данных. Во второй фазе проекта, посвященной вопросу применимости данных этого типа для решения задачи классификации, 33 различными научными группами было получено 262 классификатора для 13 фенотипических признаков обозначенных латинскими буквами от А до М [Shi et al. 2010]:
5
1. А, В, С - признаки, характеризующие токсический ответ в результате воздействия ксенобиотиков на организм.
2. Остальные 10 признаков соответствовали онкологическим заболеваниям: D, Е - рак молочной железы; F, G, Н, I - миелома; J, К, L, М - глиобластома. Размер классификаторов варьировал от 3 до 200 генов. Число
классификаторов на признак составляло от 17 до 27 штук, т.к. не каждая группа подала на рассмотрение классификаторы для всех признаков. Вместе с индивидуальными классификаторами для фенотипов были проанализированы уникальные объединения классификаторов для каждого фенотипа, размер которых варьировал от 92 до 659 генов. 2.2. Методы
2.2.1. Идентификация списков конститутивных и тканеспецифичных генов.
Список генов, которые достоверно экспрессируются в каждой из 31 ткани, был задан с помощью порога по отношению сигнал/шум равному 10 (S/N>10) для каждого зонда. Общая часть пересечения между всеми 31 полученных таким образом списков, то есть гены, которые последовательно изменяют свою экспрессию во всех тканях, представляет собой список конститутивных генов. А тканеспецифичные гены для каждой ткани были определены как гены, которые уникально экспрессируются в конкретной ткани с S/N>10.
2.2.2. Идентификация ампликонов и определение ампликома. Для
идентификации ампликонов был использован метод наименьших общих областей (Minimal Common Region, MCR), который ранее использовался в подобных исследованиях, но с использованием CGH-чипов [Yao et al. 2006]. В качестве MCR были выбраны участки, на протяжение которых значение амплификации выше 5 копий и это наблюдается как минимум в 7 из 191 эксперимента [Kallioniemi et al. 1994; Aguirre et al. 2004]. В свою очередь близко лежащие MCR были объединены в ампликоны, т.к. вероятнее всего такие MCR относятся скорее к одному ампликону, чем представляют два независимых события амплификации. Совокупность всех полученных ампликонов обозначена как «ампликомом» и использоваться дальше для исследования.
2.2.3. Функциональный анализ. Функциональный анализ перечисленных выше данных производился в программном комплексе Metacore™ (vvvvw.genego.com'). Был произведен анализ нескольких биологических онтологии с целью, выяснить в каких значимых биологических процессах задействованы гены из анализируемых списков, и попытаться охарактеризовать их биологический смысл.
Использовались онтология Gene Ontology (GO, wwvv.gcneontology.org'), а также коммерческие онтологии в составе программного продукта Metacore™: Metacore™ Canonical Pathways Maps, Metacore™ Processes Networks, Metacore™ Diseases by Biomarkers. Значимость биологических процессов оценивалась с использованием гипергеометрического распределения. Мера значимости данного процесса для данного входного списка генов, p-value, для этого распределения вычисляется как:
ЯШ1 <П,ЙЛ tilín (71.я;
V , й! в! ('>' - Ю' Í.V - ?;)! V 1
где N - число генов в базе данных Metacore™, R - число генов, приписанных к данному процессу, п - размер входного списка генов и г - число генов из входного списка, относящихся к данному процессу.
2.2.4 .Интерактомпый анализ. Интерактомный анализ списка генов заключается в анализе топологических характеристик сети, которую потенциально может формировать исследуемый список генов, относительно топологии глобальной сети MetaCore™. Это дает представление о том, насколько тесно исследуемые гены взаимосвязаны между собой, каковы их взаимодействия с глобальной сетью, как белки распределяются по белковым классам. Используя эти знания совместно с результатами других инструментов, в частности с результатами анализа онтологий, можно определить пути сигнальной трансдукции, характерные для изучаемого признака [Cusick et al. 2005; Nikolsky et al. 2005].
2.2.4.1. Анализ топологии сетей. Одной из характеристик любого графа является степень вершины, которая выражается как среднее число связей, приходящиеся на вершину. Поскольку большинство биологических сетей представляет собой направленный граф, то их можно дополнительно характеризовать с помощью полустепеней захода и исхода. Полустепень захода характеризует среднее число связей, приходящих на вершину, а полустепень исхода - наоборот, число исходящих связей из вершины.
2.2.4.2. Распределение по белковым классам. Анализируемые списки генов были разложены по 7 белковым классам, представленным в MetaCore™: факторы транскрипции, рецепторы, лиганды, киназы, протеазы, фосфатазы и метаболические ферменты. Отдельно в дополнительный класс "другое" были собраны белки, которые нельзя отнести ни к одному из упомянутых классов (например, неспецифично связывающиеся белки) - и затем проранжированы по р-value. P-value рассчитывалось по основной формуле гипергеометрического
7
распределения (см. 2.2.3 Функциональный анализ). Только в этом случае, г - это число объектов определенного белкового класса из анализируемого списка; Я -общее число объектов в списке; п — общее число объектов данного белкового класса в глобальной сети Сепево; N - общее число объектов глобального сети.
2.2.4.3. Относительная взаимосвязанность белков. Одним из видов интерактомного анализа списков генов стала оценка числа взаимодействий как внутри списков, так и извне. В первом случае оценивалось количество связей между белками в составе списка, в то время как в другом случае - число взаимодействий между белками из списка и глобальной сетью Ме1аСоге™. Для удобства управления результатами, все белки были разделены на белковые классы в соответствии с классификацией Ме(аСоге™. Ожидаемое число взаимодействий для белка определялось как доля от общего числа его взаимодействий в глобальной сети ОепеОо пропорционально размеру списка белков. Если число взаимодействий внутри списка белков больше чем ожидаемое, то белок считается сверхсвязанным; если же число взаимодействий оказывалось меньше ожидаемого, то такой белок считался малосвязанным. Степень сверхсвязанности и малосвязанности можно оценить с помощью р-уа1ие и г-Бсоге. 7-зсоге означает разницу между числом полученных белков и ожидаемым средним числом белков, относящихся к экспрессированным генам в единицах стандартной дисперсии:
Р-уа1ие рассчитывалось с использованием основной формулы гипергеометрического распределения (см. 2.2.3 Функциональный анализ), где г -это число белков из исходного списка белков, имеющих связи с данным белком; Я
- общее число белков в глобальной сети ОепеОо, имеющих связи с этим белком; п
- общее число белков в исходном списке; и N -общее число белков в глобальной сети ОепеОо.
2.2.4.4 Попарная оценка количества взаимодействий типа «регуляция транскрипции» между списками генов. Используя информацию о взаимодействиях из глобальной сети, можно оценить количество связей, которые носят регуляторный характер, между двумя списками генов А и В, при этом оценка производилась с учетом направления - от А до В и от В до А. Для каждой пары списков высчитывалось р-уа1ие такое же, как и в случае с анализом онтологий (см. 2.2.3 Функциональный анализ), за тем исключением, что теперь г -
2 - ¡соге =
это полученное число взаимодействий между списками А и В, п - число входящих связей во второго списка, R - число выходящих линков из первого списка, N -общее число взаимодействий типа «регуляция транскрипции» в глобальной сети.
3. Результаты и обсуждение
3.1. Анализ списков конститутивных и тканеспецифичных генов
3.1.1. Определение конститутивных и тканеспецифичных генов. В результате анализа полногеномных данных по экспрессии генов в 31 человеческой ткани были выявлены списки конститутивных и тканеспецифичных генов. Применив десятикратный порог по отношению сигнал/шум (S/N>10) были выделены транскрипты, представленные по всех типах тканей, то есть список конститутивных генов, содержащий 2374 гена. Данный список был сравнен с 3 другими списками конститутивных генов из опубликованных ранее исследований [Warrington et al. 2000; Eisenberg and Levanon 2003; Tu et al. 2006]. Исходный список конститутивных генов имеет пересечение с вышеназванными списками в размере от 42 до 82 процентов, при этом только 97 генов являются общими для всех 4 списков (Рис. 1). Более того, Список генов, полученный в ходе данной работы, перекрывается с пересечением на 80% и содержит 1419 конститутивных генов, ранее неизвестных.
Рис. 1. Диаграмма Вснна для 4 списков конститутивных генов. A) Eisenberg et al. Б) Список генов, полученный в ходе данной работы, В) Tu et al, Г) Warrington et al,
Гены, которые уникально экспрессируются только в одной из 31 ткани при пороге S/N>10, были определены как тканеспецифичные. Списки
тканеспецифичных генов варьируют по размерам от 4 генов для тимуса и до 484 генов для семенников, средний размер списков составил 43,8 гена
Таким образом, был идентифицирован список из 2374 конститутивных генов, из которых 1419 ранее к таковым не относились. А также были определены списки тканеспецифичных генов для каждой из 31 ткани.
3.1.2. Распределения по онтологиям согласуются со спецификой каждой ткани. Полученные списки конститутивных и тканеспецифичных генов были проанализированы по 4 онтологиям. В результате для списка конститутивных генов среди наиболее значимых карт в распределение по онтологии Metacore™ Canonical Pathways Maps оказались карты связанные с процессами жизнеобеспечения и ростом, такими как окислительное фосфорилирование, метаболизм убихинона и т.д. Распределения по остальным онтологиям также продемонстрировали сходную картину. В первой десятке наиболее значимых сетей распределения по Metacore™ Processes Networks попали сети, описывающие убиквитин-зависимый протеолиз, инициацию трансляции. Среди первых 10 результатов анализа онтологии GO Process оказались такие процессы как клеточный метаболизм, трансляция и процессинг РНК.
Подобным же образом были проанализированы каждый из 31 списка тканеспецифичных генов. В большинстве случае, распределения процессов и карт по p-value были поразительно сходны с тканями, к которым они были отнесены. Так, например, 190 генов, специфичных для сетчатки, были обогащены процессами, специфичными для глаза, по всем 4 использованным онтологиям. Карты, описывающие процессы зрительного восприятия и метаболизм ретинола -два очень специфичных процесса для глаз, попали в первые наиболее значимые 10 карт. В распределении Metacore™ Processes Networks на первом месте оказалась сеть, связанная с визуальным восприятием. Десять наиболее значимых процессов в распределении по GO Processes оказались связаны со зрением, при этом среди них оказались такие процессы, как сенсорное восприятие светового стимула, зрительное восприятие и детекция видимого света. Все первые 10 болезней из распределения по Metacore™ Diseases by Biomarkers также имеют прямое отношение к различным заболеваниям глаз: деградация сетчатки, ночная слепота и воспаление сетчатки.
Таким образом, полученные списки конститутивных и тканеспецифичных генов были провалидированы с помощью функционального анализа, результаты
которого отражают общие процессы характерные для конститутивных генов и специфику каждой ткани для списков тканеспецифичных генов.
3.1.3. Топология сетей конститутивных и тканеспецифичных генов. Все
четыре списка конститутивных генов имеют сходные черты в топологии сетей, I которые они образуют. Значение степени вершины оказалась повышено по сравнению с глобальной сетью и варьирует от 13,92 до 19,39, при этом полустепени захода и исхода также превышают средние значения, при этом не наблюдается преобладания одной полустепени над другой.
Топология же сетей для списков тканеспецифичных генов существенно варьирует по значениям степени вершины: от генов толстого кишечника и эмбрионального тимуса как наиболее связанных и до простаты и почек, чьи гены оказались наименее связанными (Рис. 2).
А 50
40 30 20 10
•Полустепень захода Полустепень исхода
Рис. 2 Топологические характеристики сетей конститутивных и тканеспецифичных генов.
А) Степень вершины; Б) Полустепени захода и исхода.
Таким образом, все списки конститутивных генов формируют одинаковые по структуре сети, которые в равной степени содержат как белки-регуляторы, так и белки-эффекторы белки. Топология сетей для тканеспецифичных генов различается в зависимости от ткани.
3.1.4. Распределение по белковым функциям зависит от ткани. Все списки конститутивных генов и списки тканеспецифичных генов были разделены на белковые классы в соответствии с белковой классификацией Ме1аСоге™. Конститутивные гены, а точнее белки, которые они кодируют в основном, представлены ферментами. Кишечник, печень, надпочечники, а также щитовидная железа выделяются большой долей ферментов. Эмбриональные ткани обогащены факторами транскрипции. Как видно на Рис. 3, различные распределения списков генов по белковым функциям согласуются биологическими особенностями тканей.
о 5 * ^ ^ (У ^ ^ * т ШЯЙ
/// Т9'*
а?//// $
* / ? I <? » * 1V. "
Г*»нь
/ */// 7/
I Факторы транскрипции I Протеазы
I Рецепторы Фосфатазы
I Лиганды I Ферменты
I Киназы Другое
Рис. 3. Распределение по белковым классам для списков конститутивных и тканеспецифичных генов.
Таким образом, видно, что в конститутивных генах преобладают ферменты, что соотносится с их участием в основных метаболических процессах. Также соотносится белковый состав тканеспецифичных генов с биологией ткани, к которой они относятся.
3.1.5. Кластеризация тканей на основе паттернов экспрессии генов.
Экспрессионные паттерны тканей были кластеризованы с использованием Евклидова расстояния и среднего значение нормализованной интенсивности зонда для всех реплик каждой ткани [БЫрквт е1 а1. 2007]. Большинство тканей продемонстрировали эволюционную и функциональную схожесть. Эмбриональные ткани кластеризовались близко к зрелым аналогам (мозг к эмбриональному мозгу, печень к эмбриональной печени, тимус к эмбриональному тимусу) (Рис. 4).
г^:
UHR
Сетчатка Костный мозг
i-# Молочная железа _[■-• Яичники |_г* Кожа Матка
-• Миндалины
. I • Тонкая кишка Трахея Легкие
-Сердце
_ Скелетные мышцы * Надпочечники
_ Лейкоциты
Щитовидная железа I Z Эмбриональные почки Эмбриональный тимус
_ф Селезенка
_Ф Почки
_ Прямая кишка
Простата I—• Эмбриональный мозг —|г-в Спинной мозг Мозг г-* Плацента
_ Семенники
г-* Слюнные железы ^ Поджелудочные железы __["• Печень
Эмбриональная печень
Рис. 4. Кластеризация типов тканей. UHR - Universal Human Reference
Сердце и скелетная мышца, ткани, имеющие мезодермальное происхождение, попадают в один кластер. Сходная картина наблюдается для поджелудочной и I слюнных желез, так как они являются участниками желудочно-кишечного тракта.
Таким образом, видно, что списки генов для тканей, имеющие одинаковое происхождение (эктодермальное, энтодермальное, или мезодермальное) или функциональное сходство склонны кластеризоваться вместе. !
3.2. Анализ амплификаций и мутаций в раке молочной железы I
3.2.1. Идентификация ампликонов и ампликома. В результате анализа данных с j SNP-чипов для 191 эксперимента при использовании метода наименьших общих j областей было идентифицировано в общей сложности 58 наименьших общих : областей (Minimal Common Region, MCR), которые затем были в объединены в 30 ! ампликонов. Полученные ампликоны расположились на 16 хромосомах. Проверка литературных данных показала, что 23 ампликона из 30 найденных в ходе этой Î работы были ранее описаны хотя бы в одном исследовании, а остальные 7 являются новыми, ранее не упоминавшимися в научных работах. t
Все 30 идентифицированных ампликонов были объединены в так называемом «амшшкоме», совокупности всех генов, которые амплифицируются в клетке. Общая протяженность ампликома составляет 200 Мб (примерно 6.67% от общей длины генома) и содержит 1747 генов (10% от числа генов, имеющихся на использованном SNP-чипе (17447 генов) и примерно 5,6 процентов от общего числа генов). Данные цифры соответствуют оценке общей доли амплификаций в геноме в 12%, или 360 Мб [Redon et al. 2006].
Таким образом, в ходе данной работы были идентифицированы 30 ампликонов, 7 из которых являются новыми. Совокупность всех найденных ампликонов формирует «ампликом» рака молочной железы.
3.2.2. Ампликоны сильно различаются по кодируемым белковым классам. Анализ распределений по белковым классам индивидуальных ампликонов показал, что они различаются друг от друга по процентному соотношению (Рис. 5). Например, ампликон 7р15 почти полностью состоит из факторов транскрипции группы НОХА. Ампликон 20р13 обогащен рецепторами, на которые приходится 43%, в то время как ампликоны lq32, 17q21-q25, и 22ql3 обогащены киназами. Ампликоны lq32 и 12ql3-q21 имеют большую долю лигандов, в то время такие эффекторные белки, как протеазы и метаболические ферменты, оказались сконцентрированы в 16р13 и 12q24, соответственно.
Таким образом, особенности распределения по белковым классам для ампликонов могут быть связаны с тем, что в ампликоны попадают целые семейства генов, которые выполняют одинаковую функцию и физически расположены в одном локусе.
Рис. 5. Распределение по 8 белковым классам для ампликонов, ампликома и мутома.
3.2.3. Анализ топологии сетей индивидуальных ампликонов. Гены, расположенные в составе одного ампликона, могут быть функционально связанными между собой. Наилучшим примером такого случая является ко-амплификация ERBB2 и GRB7 в ампликоне 17q2 [Bai and Luoh 2008]. Поэтому мы предположили, что гены ампликона взаимосвязаны друг с другом. Тем не менее, анализ топологии сетей для всех идентифицированных ампликонов показал, что только 9 ампликонов из 30 кодируют белки, которые имеют повышенную степень связанности внутри ампликона. Остальные ампликоны имели пониженную степень связанности, и количество приходящих извне связей превалировало над
количеством исходящих связей относительно среднего количества связей глобальной сети.
Таким образом, можно сделать вывод о том, что гены ампликонов преимущественно регулируются другими генами, расположенными вовне ампликома, на основании того факта, что они обогащены генами-мишенями транскрипционных факторов.
4
MÉK1/2
ь
4
I-KB P9ÛRSK
О О
А
NF-KB
• А
<*
»
А
© а
17q21-q25
VlU». сл1>с
I А 1бР1з
P70-S» **
© Ш
* 8q23-q24
ICell cycle regulation
8p12-p11
! mTOR
A e
| Protein synthesis
Q Ci
RMEB
A
й Glycogen ft ^ synthesis P
Рис. 6. Регуляторная карта сигнальных путей рецептора инсулиноподобного фактора роста IGF-1R. Инсулиноподобный фактор участвует в стимуляции процессов пролиферации и дифференцировки, помимо этого его рецептор IGF-1R участвует в регуляции апоптоза. Видно, что все пертурбации на карте происходят из отдельных ампликонов.
3.2.4. Индивидуальные ампликоны не являются автономными функциональными единицами. Анализ по 4 онтологиям только подтвердил, что ампликоны не являются функциональными единицами. Ампликоны оказались
ассоциированы с сигнальными путями и процессами развития опухоли, такими как клеточный цикл, клеточная адгезия, репарация ДНК, иммунный ответ и перестройка цитоскелета, но в недостаточной степени, т.к. на карту, или процесс попадали один-два гена из индивидуального ампликона. Это отражалось и на значениях р-уа!ие, которые оказались больше, чем для их совокупности -ампликома, для тех же процессов, как это будет показано ниже. В тоже время, ампликоны продемонстрировали синергию в кодировании генов, связанных с канцерогенезом, что видно по распределениям всех 4 онтологий для полного ампликома. Эта синергия ампликонов хорошо заметна на картах, связанных с опухолеобразованием, на которых аккумулируются гены, расположенные в различных ампликонах (Рис. 6).
Таким образом, можно предполагать, что ни один из ампликонов не является функциональным отражением определенного процесса, или сигнального каскада.
3.2.5. Анализ топологии сетей ампликома, мутома, их пересечения. Анализ топологии сети, которую образуют 1747 генов, входящих в ампликом, показал, что степень вершины равняется 9,579, превышая значение для глобальной сети -9.113, что свидетельствует о том, что элементы ампликома связаны теснее, чем в глобальной сети. Значение полустепени захода, обозначающее среднее количество входящих в вершину связей - 5,797 превышает это же значение для глобального сети 5,274. При этом полустепень исхода, наоборот, меньше среднего числа исходящих связей глобального интерактома - 7.978. Сеть, которую образуют гены мутома, также оказывается более плотной по сравнению с глобальным интерактомом, потому что степень вершины мутома равняется 11,75, что существенно превышает глобальные значения. Полустепени захода и исхода тоже превышают средние значения по глобальной сети - 6.074 и 11.44. Как видно, число исходящих связей на вершину сети для мутома существенно больше среднего по глобальной сети.
Таким образом, сеть ампликома имеет больше входящих связей, чем исходящих, то есть принимает извне приходящие сигналы в большей степени, чем отправляет. Можно предположить, что весь ампликом регулируется извне другой подсистемой генов. В то время повышенное количество исходящих связей в мутоме вероятно происходит за счет того, что он содержит белки-хабы, транскрипционные факторы, которые регулируют свои мишени, находящиеся вне
мутома. На данном этапе анализа можно предположить, что мутом регулирует ампликом.
3.2.6. Анализ онтологии для ампликома, мутома. Ампликом и мутом были проанализированы по 4 онтологиям; результаты анализа позволили сделать вывод о том, что гены, входящие в состав и ампликома, и мутома, связаны с важными процессами, относящимися к раку молочной железы, причем можно предположить, что оба эти списка статистически достоверным образом связаны с процессами инвазивности и зрелой формы рака. Вклады ампликома и мутома различны, так гены ампликома в большей степени участвуют в процессах сигналинга ростовых факторов, сайленсинга, регуляции активации ядерных рецепторов андрогена и эстрогена, а также в ряде процессов, связанных с инвазивностью рака. При этом стоить заметить, что гены ампликома довольно широко представлены в процессах, которые можно отнести к группе процессов развития. Получается, что наиболее часто амплифицируются гены, участвующие в развитии организма. В то же время, при раке молочной железы наиболее часто мутируют гены, характеризующие процессы клеточной адгезии, перестройки цитоскелета, клеточного цикла, и воспаления. О том, что амплификации и мутации по-разному участвуют в раке молочной железы свидетельствует и довольно небольшое пересечение в 94 гена для ампликома (1747 генов) и мутома (1188 генов)
Таким образом, можно предположить, что ампликом представляет собой эффекторную группу генов, которая непосредственно участвует в процессах канцерогенеза, а в мутоме содержатся гены, которые участвуют в общих процессах, нарушения в которых ведут к канцерогенезу, в качестве инициаторов.
3.2.7. Оценка количества взаимодействий типа «регуляция транскрипции» между ампликомом и мутомом. Для проверки предположения о том, что мутом может регулировать свои гены мишени, находящиеся в ампликоме, была проведена перекрестная оценка количества взаимодействий типа «регуляция транскрипции», или РТ-взаимодействий, между мутомом и каждым ампликоном в отдельности. Общее число РТ-взаимодействий мутом->ампликон оказалось на 60% процентов больше чем количество таковых с направлением ампликон-^мутом. При этом почти всегда, за исключением двух случаев, гены мутома регулировали мишени в ампликоне, при подавляющем количестве связей. Это согласуется с результатами анализа топологии, где мутом имел преобладание
числа исходящих связей над входящими, а для ампликома это соотношение было обратным.
Таким образом, можно сделать вывод о том, что гены, входящие в состав мутома, являются регуляторами в большей степени, чем амплифицированные гены, которые, скорее всего, играют роль регулируемых элементов в раке молочной железы.
3.3. Анализ экспрессионных классификаторов
3.3.1. Классификаторы фенотипических признаков различаются по распределению белковых классов. Классификаторы фенотипических признаков имеют различные распределения по белковым функциям, которые наблюдаются при сравнении классификаторов разных признаков. В пределах одного признака классификаторы оказываются схожими. Так, классификаторы признаков С, D, Е и I содержат большое число факторов транскрипции, в то время как классификаторы признака А содержат ферменты, признаки С, D и М характеризуются большой долей рецепторов, а Н - протеазами. Полученные распределения по белковым функциям отражает биологическую сущность, соответствующую тому или иному признаку; например, преобладание ферментов в составе классификаторов признака А логично, поскольку данный признак является одним из токсикогеномных фенотипических признаков, которые связаны с метаболизмом ксенобиотиков.
Таким образом, можно говорить о том, что фенотипические признаки различаются по белковому составу экспрессионных классификаторов, но в пределах одного признака классификаторы демонстрируют схожую картину, несмотря на то, что они были сгенерированы с помощью разных моделей.
3.3.2. Топология сетей для классификаторов фенотип-специфична. Анализ топологии для сетей классификаторов всех фенотипов и их объединений свидетельствует о том, что гены в составе классификаторов кодируют белки с большим числом взаимодействий, чем в среднем приходится на белок человека. 10 из 13 объединений классификаторов оказались обогащены белками-хабами, которые отличаются большим числом связей с другими элементами сети [Barabasi and Oltvai 2004]. При этом значения полустепеней захода и исхода в полной мере отражают наблюдения, сделанные при анализе распределения по белковым функциями. Например, большое значение полустепени захода согласуется с большим содержанием эффекторных белков, таких как основные метаболические
ферменты (признаки А, В, С), которые экспрессируются в качестве патологического ответа на воздействие ксенобиотиков.
Таким образом, можно сделать вывод о том, что топологии сетей отдельных классификаторов и их объединений имеют сходные черты в пределах одного фенотипического признака и отражаются его биологическую специфику.
3.3.3. Онтологический анализ классификаторов и их объединений. Помимо интерактомного анализа, для классификаторов и их объединений был произведен анализ онтологий. В этом случае также было обращено внимание на согласованность распределений для объединений классификаторов с фенотипическими признаками, которые они представляют. В результате оказалось, что распределение для объединения классификаторов сильно зависит от признака и в большинстве случаев совпадает с биологической сущностью данного фенотипа. Например, объединения для признаков D и Е (оба признака связаны с раком молочной железы) отличились распределениями, которые демонстрировали маркеры и пути, характеризующие инвазивный карциногенез, такие как клеточная адгезия, сигналинг PLAU и эстрогенового рецептора, а также апоптоз. Распределения объединений F и G (множественная миелома) отличаются путями клеточного цикла и белками контрольных точек этого цикла, что типично для ранних стадий развития рака.
В проекте MAQC средняя эффективность модели для признака оценивалась с помощью корреляционного коэффициента Мэттью (МСС). Интересен тот факт, что этот коэффициент был больше в тех случаях, когда распределение для объединения классификаторов по онтологии GeneGo™ Disease by Biomarkers наиболее точно отражало признак с биологической точки зрения. Корреляционный коэффициент МСС для фенотипического признака С был наибольшим среди трех признаков, характеризующих патологии, возникшие в результате воздействия ксенобиотиков. Объединение классификаторов для признака С было обогащено таким процессами как токсичность лекарственных средств (p-value<10-17), этот же процесс встречается и для признаков А и В, но не на первых местах в распределении, и имеют гораздо большее значение p-value равно 10"6, но эти же признаки при этом хуже предсказываются с помощью классификаторов.
В тоже время функциональный анализ выявил 4 резко отличающихся объединения классификаторов, а именно для фенотипов: Н, I, L и М. Эти объединения показали существенное несовпадение с характером
20
соответствующих наборов данных и четкое отличие от других объединений. Фенотипы I и М были тестовыми наборами, которые были сгенерированы случайным образом и представлены как негативный контроль для оценки мощности предсказания. Другие два фенотипа: Н и Ь, на самом деле характеризуют половой состав среди пациентов; они использовались в качестве позитивных контролен. В этом случае также наблюдаются явные отклонения в большинстве результатов их функционального анализа. Результаты анализа по онтологиям объединений классификаторов для Н и Ь также не совпадают с ожидаемым фенотипом канцерогенеза. Распределения по 4 онтологиям продемонстрировали процессы, связанные с полом и репродукцией: дифференцировка мужского пола, сигналинга андрогенового рецептора, а также соответствующие заболевания: урогенитальные заболевания, дизгенезию гонад и нарушения дифференцировки пола. Классификаторы и для Н, и для Ь были обогащены малосвязанными генами, что сильно контрастирует с классификаторами других фенотипов, в которых почти всегда присутствуют сверхсвязанные гены. Соответствие состава объединений классификаторов для фенотипов Н и Ь подчеркивает надежность моделей для выбора фенотип-релевантных генов для различных данных.
Таким образом, стоит отметить, что результаты функционального анализа коррелируют с эффективностью моделей экспрессионных классификаторов, а также позволяют выделять позитивные и негативные контроли для других фенотипов, тем самым демонстрируя преимущество это в исследовании биологических основ экспрессионных классификаторов для других фенотипов.
3.3.4. Регуляторы транскрипции генов классификаторов и гены, регулируемые классификаторами, зависят от фенотипа. Белки, которые являются ключевыми в функциональном плане для отдельного фенотипа, могут иметь множество связей с белками, которые кодируются генами, статистически достоверно изменившими экспрессию [воЬ а1. 2007]. Это логично, так как белки функционируют в физически связанных группах (комплексы, сигнальные пути) и функционально связанные гены корегулируются факторами транскрипции.
В целом связанность между генами внутри отдельных классификаторов оказалось низкой. В тоже время, несколько факторов транскрипции были связаны с генами списка классификаторов для фенотипов С, Б, Е, Б, в, .1 и К. Для примера, АТРЗ регулирует гены из 5 классификаторов. Е8Ш регулирует гены из 7 и 15 классификаторов фенотипов Б и Е, соответственно.
Анализ всех механизмов белковых взаимодействий показал, что гены классификаторов не являются сверхсвязанными по отношению к глобальной сети, за исключением фенотипов A, F и К. Тем не менее, классификаторы для всех фенотипов отличаются непропорционально большой долей мишеней для определенных факторов транскрипции, которые были определены как сверхсвязанные по взаимодействиям типа «регуляция транскрипции». Большинство генов классификаторов регулируются небольшим числом вышестоящих факторов транскрипции, причем сильно фенотип-специфическим образом. Например, 9 из 24 классификаторов фенотипа А регулируются NRF2, ключевым фактором, контролирующим ответ на оксидативный стресс. 17 классификаторов из 24 фенотипа Е включали в себя прямые мишени для факторов семейства FOX, в частности HNF3-a, отвечающего за транскрипцию в эпителии, одновременно 16 классификаторов того же фенотипа содержали мишени для ESR1. 15 классификаторов из 21 фенотипа Н корегулировались и Еп2, и MBLR, которые связаны с процессами развития.
В свою очередь гены, входящие в состав классификаторов, регулируют сравнительно небольшое количество метаболических процессов. Так из 24 классификаторов фенотипа А 16 содержат ферменты, связанные с метаболизмом лекарств; в случае фенотипа Е, то 20 из 24 классификаторов содержат гены, регулирующие тирозин 3-монооксигеназу TY3H; 19 классификаторов регулируют CG-a и 11 - интерлейкин-4. В фенотипе Н только 4 из 20 классификаторов регулируют экспрессию генов IFN-b, TCL1А и ТВХЗ.
Таким образом, можно сделать вывод о том, что экспрессионные классификаторы состоят в основном из генов-эффекторов, активность которых непосредственно связана с изменением фенотипа. Это наблюдение может быть использовано для диагностики, но при этом малоэффективно для понимания причин и этиологии заболевания.
Выводы
1. В результате анализа данных по экспрессии генов в 31 образце ткани, был выделен список конститутивных генов размером 2374 гена, из которых 1491 генов ранее не классифицировались как конститутивные. Помимо этого для каждой ткани был определен тканеспецифичных генов, которые уникально экспрессируются в ней, размеры списков варьируют от 4 до 484 генов.
2. Используя данные с БОТ-чипов для 191 образца рака молочной железы, идентифицированы 30 ампликонов, 23 из которых подтверждены литературными данными. При этом было идентифицировано 7 новых ампликонов, ранее неизвестных - 5р15, 7р22, 7р15, 10ц22, \4q22, 19р13 и 22ц\3. Данные ампликоны нуждаются в дальнейшем исследовании, так как они могут иметь прямое отношение к раку и содержать гены, ранее не ассоциированные с раком молочной железы. Идентифицированные ампликоны составляют ампликом рака молочной железы размером 1747 генов.
3. Свойства сетей, которые образуют тканеспецифичные гены, согласуются с результатами анализа онтологий и отражают в полной мере биологическую специфику каждой ткани.
4. Соматические мутации и амплификации образуют сети, по топологии которых можно сказать, что оба списка являются сильно связанными внутри себя, причем для мутома была получена большая степень связанности по входящим связям. Мутом также продемонстрировал большее количество связей типа «регуляция транскрипции» по отношению к ампликонам, чем ампликоны по отношению к мутому. Это подтверждает регуляторную роль мутома по отношению к ампликому.
5. Различные статистические модели способны генерировать классификаторы, которые способны образовывать сети, со схожими характеристиками, но при этом индивидуальные классификаторы не являются функциональными единицами. При этом в состав классификаторов имеют тенденцию попадать преимущественно гены-мишени транскрипционных факторов.
6. Интерактомный анализ является полезным инструментом анализа крупномасштабных данных, который отлично дополняет ставший классическим функциональный анализ онтологий биологических процессов. Но при этом является недостаточно информативным, если его применять индивидуально. Несомненно, данный вид анализа является перспективным для развития в будущем.
Публикации по материалам работы:
1. Dezso Z, Nikolsky Y, Sviridov E, Shi W, Serebriyskaya T, Dosymbekov D, Bugrim A, Rakhmatulin E, Brennan RJ, Guryanov A, Li K, Blake J, Samaha RR, Nikolskaya T. A comprehensive functional analysis of tissue specificity of human gene expression. BMC Biol. 2008 Nov 12;6:49.
2. Nikolsky Y, Sviridov E, Yao J, Dosymbekov D. Ustyansky V, Kaznacheev V, Dezso Z, Mulvey L, Macconaill LE, Winckler W, Serebryiskaya T, Nikolskaya T, Polyak K. Genome-wide functional synergy between amplified and mutated genes in human breast cancer. Cancer Res. 2008 Nov 15;68(22):9532-40.
3. Shi W, Bessarabova M, Dosymbekov D, Dezso Z, Nikolskaya T, Dudoladova M, Serebryiskaya T, Bugrim A, Guryanov A, Brennan RJ, Shah R, Dopazo J, Chen M, Deng Y, Shi T, Jurman G, Furlanello C, Thomas RS, Corton JC, Tong W, Shi L, Nikolsky Y. Functional analysis of multiple genomic signatures demonstrates that classification algorithms choose phenotype-related genes. Pharmacogenomics J. 2010 Aug; 10(4):310-23.
Заказ № 153-а/02/2011 Подписано в печать 17.02.2011 Тираж 70 экз. Усл. п.л. 1,2
ООО "Цифровичок", тел. (495) 649-83-30 www.cfr.ru; е-таИ: info@cfr.ru
Содержание диссертации, кандидата биологических наук, Досымбеков, Дамир Нуртасович
1. СПИСОК СОКРАЩЕНИЙ.
2. СЛОВАРЬ ТЕРМИНОВ.
3. ВВЕДЕНИЕ.
4. ЦЕЛЬ И ЗАДАЧИ.
5. ОБЗОР ЛИТЕРАТУРЫ.
5.1. Связь фенотипических признаков с разными уровнями организации информации в клетке.
5.2. Omics-данные.
5.2.1. Стратегии применения omics-данных.
5.3. Системная биология.
5.4. Интерактомный анализ.
5.5. Анализ значимых биологических процессов.
6. МАТЕРИАЛЫ И МЕТОДЫ.
6.1. Описание данных.
6.1.1. Данные по экспрессии из 31 ткани.
6.1.2. Данные по изменению числа копий генов из 191 ракового образца.
6.1.3. Экспрессионные классификаторы.
6.2. Идентификация списков конститутивных и тканеспецифичных генов.
6.3. Идентификация ампликонов, определение ампликома и мутома.
6.4. Определение мутома.
6.5 Функциональный анализ.
6.6. Интерактомный анализ.
6.6.1. Анализ топологии сетей.
6.6.2. Распределение по белковым классам.
6.6.3. Относительная взаимосвязанность белков.
6.6.4. Попарная оценка количества взаимодействий типа «регуляция транскрипции» между списками генов.
7. РЕЗУЛЬТАТЫ.
7.1. Определение конститутивных и тканеспецифичных генов.
7.2. Распределения по онтологиям согласуются со спецификой каждой ткани
7.3. Интерактомный анализ конститутивных и тканеспецифичных генов.
7.3.1. Анализ топологии.
7.3.2 Компонентный анализ сетей.
7.3.3. Распределение по белковым функциям зависит от ткани.
7.3.4. Сети тканеспецифичных генов отражают биологию ткани.
7.4. Кластеризация тканей на основе паттернов экспрессии генов.
7.5 Идентификация ампликонов и ампликома.
7.6. Ампликоны сильно различаются по кодируемым белковым классам.
7.7. Анализ топологии сетей индивидуальных ампликонов.
7.8. Индивидуальные ампликоны не являются автономными функциональными единицами.
7.9. Анализ топологии сетей ампликома, мутома, их пересечения.
7.10Анализ онтологий для ампликома, мутома и их пересечения.
7.11. Кросс-связанность и транс-регуляция среди ампликонов.
7.12. Оценка количества взаимодействий типа «регуляция транскрипции» между ампликомом и мутомом.
7.13. Экспрессионные классификаторы.
7.14. Классификаторы фенотипических признаков различаются по распределению белковых классов.
7.15. Топология сетей для классификаторов фенотип-специфична.
7.16. Онтологический анализ классификаторов и их объединений.
7.17. Регуляторы транскрипции генов классификаторов и гены регулируемые классификаторами, зависят от фенотипа.
8. ОБСУЖДЕНИЕ.
8.1. Специфика ткани влияет на характеристики сетей, которые образуют тканеспецифичные гены.
8.2. Мутации регулируют амплифицированные гены.
8.3. Разные статистические модели генерируют классификаторы, образующие сходные сети.
8.4. Эффективность и информативность интерактомного анализа.
9. ВЫВОДЫ.
Заключение Диссертация по теме "Генетика", Досымбеков, Дамир Нуртасович
9. ВЫВОДЫ
1. В результате анализа данных по экспрессии генов в 31 образце ткани, был выделен список конститутивных генов размером 2374 гена, из которых 1491 генов ранее не классифицировались как конститутивные. Помимо этого для каждой ткани был определен тканеспецифичных генов, которые уникально экспрессируются в ней, размеры списков варьируют от 4 до 484 генов.
2. Используя данные с БЫР-чипов для 191 образца рака молочной железы, идентифицированы 30 ампликонов, 23 из которых подтверждены литературными данными. При этом было идентифицировано 7 новых ампликонов, ранее неизвестных - 5р15, 7р22, 7р15, \0q22, 14д22, 19р13 и 22ц13. Данные ампликоны нуждаются в дальнейшем исследовании, так как они могут иметь прямое отношение к раку и содержать гены, ранее не ассоциированные с раком молочной железы. Идентифицированные ампликоны составляют ампликом рака молочной железы размером 1747 генов.
3. Свойства сетей, которые образуют тканеспецифичные гены, согласуются с результатами анализа онтологий и отражают в полной мере биологическую специфику каждой ткани.
4. Соматические мутации и амплификации образуют сети, по топологии которых можно сказать, что оба списка являются сильно связанными внутри себя, причем для мутома была получена большая степень связанности по входящим связям. Мутом также продемонстрировал большее количество связей типа «регуляция транскрипции» по отношению к ампликонам, чем ампликоны по отношению к мутому. Это подтверждает регуляторную роль мутома по отношению к ампликому.
5. Различные статистические модели способны генерировать классификаторы, которые способны образовывать сети, со схожими характеристиками, но при этом индивидуальные классификаторы не являются функциональными единицами. При этом в состав классификаторов имеют тенденцию попадать преимущественно гены-мишени транскрипционных факторов.
6. Интерактомный анализ является полезным инструментом анализа крупномасштабных данных, который отлично дополняет ставший классическим функциональный анализ онтологий биологических процессов. Но при этом является недостаточно информативным, если его применять индивидуально. Несомненно, данный вид анализа является перспективным для развития в будущем.
Библиография Диссертация по биологии, кандидата биологических наук, Досымбеков, Дамир Нуртасович, Москва
1. Ardrey, R.E. and R. Ardrey, Liquid chromatography-mass spectrometiy: an introduction. 2003, London: J. Wiley.2. de Hoffmann, E. and V. Stroobant, Mass spectrometry: Principles and applications. 2001: John Wiley & Sons.
2. Patterson, S.D. and R.H. Aebersold, Proteomics: the first decade and beyond. Nat Genet, 2003. 33 Suppl: p. 311-23.
3. Carter, N.P., Methods and strategies for analyzing copy number variation using DNA microarrays. Nat Genet, 2007. 39(7 Suppl): p. SI6-21.
4. Wood, L.D., et al., The genomic landscapes of human breast and colorectal cancers. Science, 2007. 318(5853): p. 1108-13.
5. Jones, S., et al., Core signaling pathways in human pancreatic cancers revealed by global genomic analyses. Science, 2008. 321(5897): p. 1801-6.
6. Parsons, D.W., et al., An integrated genomic analysis of human glioblastoma multiforme. Science, 2008. 321(5897): p. 1807-12.
7. Li, H. and W. Wang, Dissecting the transcription networks of a cell using computational genomics. Curr Opin Genet Dev, 2003. 13(6): p. 611.-6.
8. Wang, W., et al., Inference of combinatorial regulation in yeast transcriptional networks: a case study of sporulation. Proc Natl Acad Sci USA, 2005. 102(6): p. 1998-2003.
9. Bar-Joseph, Z., et al., Computational discovery of gene modules and regulatory networks. Nat Biotechnol, 2003. 21(11): p. 1337-42.
10. Jansen, R., et al., A Bayesian networks approach for predicting protein-protein interactions from genomic data. Science, 2003. 302(5644): p. 449-53.
11. Rhodes, D.R., et al., Probabilistic model of the human protein-protein interaction network. Nat Biotechnol, 2005. 23(8): p. 951-9.
12. Ekins, S., et al., Pathway mapping tools for analysis of high content data. Methods Mol Biol, 2007. 356: p. 319-50.
13. Nikolsky, Y., et al., A novel methodfor generation of signature networks as biomarkers from complex high throughput data. Toxicol Lett, 2005. 158(1): p. 209.
14. Nikolsky, Y., T. Nikolskaya, and A. Bugrim, Biological networks and analysis of experimental data in drug discovery. Drug Discov Today, 2005. 10(9): p. 653662.
15. Dezso, Z., et al., A comprehensive functional analysis of tissue specificity of human gene expression. BMC Biol, 2008. 6: p. 49.
16. Nikolsky, Y. and J. Bryant, Protein networks and pathway analysis. Preface. Methods Mol Biol, 2009. 563: p. v-vii.
17. Osborne, C.K., et al., Estrogen receptor: current understanding of its activation and modulation. Clin Cancer Res, 2001. 7(12 Suppl): p. 4338s-4342s; discussion 441 ls-4412s.
18. Greenman, C., et al., Patterns of somatic mutation in human cancer genomes. Nature, 2007. 446(7132): p. 153-8.
19. Scully, R. and A. Xie, BRCA1 and BRCA2 in breast cancer predisposition and recombination control. J Mammary Gland Biol Neoplasia, 2004. 9(3): p. 237-46.
20. Harris, C.C.,p53 tumor suppressor gene: fi-om the basic research laboratory to the clinic—an abridged historical perspective. Carcinogenesis, 1996. 17(6): p. 1187-98.
21. Generali, D., et al., EGFR mutations in exons 18-21 in sporadic breast cancer. Ann Oncol, 2007. 18(1): p. 203-5.
22. Sato, M., et al., Multiple oncogenic changes (K-RAS(V12), p53 knockdown, mutant EGFRs, pi 6 bypass, telomerase) are not sufficient to confer a full malignantphenotype on human bronchial epithelial cells. Cancer Res, 2006. 66(4): p. 2116-28.
23. Markowitz, S., et al., Inactivation of the type II TGF-beta receptor in coloncancer cells with microsatellite instability. Science, 1995. 268(5215): p. 1336-8.136
24. Rak, J., et al., Oncogenes as inducers of tumor angiogenesis. Cancer Metastasis Rev, 1995. 14(4): p. 263-77.
25. Zuo, L., et al., Germline mutations in thepl6INK4a binding domain of CDK4 in familial melanoma. Nat Genet, 1996. 12(1): p. 97-9.
26. Cantley, L.C. and B.G. Neel, New insights into tumor suppression: PTEN suppresses tumor formation by restraining the phosphoinositide 3-kinase/AKT pathway. Proc Natl Acad Sci USA, 1999. 96(8): p. 4240-5.
27. Sjoblom, T., et al., The consensus coding sequences of human breast and colorectal cancers. Science, 2006. 314(5797): p. 268-74.
28. Onay, V.U., et al., SNP-SNP interactions in breast cancer susceptibility. BMC Cancer, 2006. 6: p. 114.
29. Cox, A., et al., A common coding variant in CASP8 is associated with breast cancer risk. Nat Genet, 2007. 39(3): p. 352-8.
30. Easton, D.F., et al., Genome-wide association study identifies novel breast cancer susceptibility loci. Nature, 2007. 447(7148): p. 1087-93.
31. Hunter, D.J., et al., A genome-wide association study identifies alleles in FGFR2 associated with risk of sporadic postmenopausal breast cancer. Nat Genet, 2007. 39(7): p. 870-4.
32. Stacey, S.N., et al., Common variants on chromosomes 2q35 and 16ql2 confer susceptibility to estrogen receptor-positive breast cancer. Nat Genet, 2007. 39(7): p. 865-9.
33. Yao, J., et al., Combined cDNA array comparative genomic hybridization and serial analysis of gene expression analysis of breast tumor progression. Cancer Res, 2006. 66(8): p. 4065-78.
34. Shipitsin, M., et al., Molecular definition of breast tumor heterogeneity. Cancer Cell, 2007. 11(3): p. 259-73.
35. Gunnarsson, C., et al., Amplification of HSD17B1 and ERBB2 in primary breast cancer. Oncogene, 2003. 22(1): p. 34-40.
36. Kallioniemi, O.P., et al., ERBB2 amplification in breast cancer analyzed by fluorescence in situ hybridization. Proc Natl Acad Sci USA, 1992. 89(12): p. 5321-5.
37. Haverty, P.M., et al., High-resolution genomic and expression analyses of copy number alterations in breast tumors. Genes Chromosomes Cancer, 2008. 47(6): p. 530-42.
38. Bowles, E., et al., Profiling genomic copy number changes in retinoblastoma beyond loss of RBI. Genes Chromosomes Cancer, 2007. 46(2): p. 118-29.
39. McDonald, S.L., et al., Genomic changes identified by comparative genomic hybridisation in docetaxel-resistant breast cancer cell lines. Eur J Cancer, 2005. 41(7): p. 1086-94.
40. Miyakis, S. and D.A. Spandidos, Allelic loss in breast cancer. Cancer Detect Prev, 2002. 26(6): p. 426-34.
41. Sherr, C.J., Principles of tumor suppression. Cell, 2004. 116(2): p. 235-46.
42. Bird, A.P., CpG-rich islands and the function ofDNA methylation. Nature, 1986. 321(6067): p. 209-13.
43. Fuks, F., et al., DNA methyltransferase Dnmtl associates with histone deacetylase activity. Nat Genet, 2000. 24(1): p. 88-91.
44. Luther, T., et al., Identification of a novel urokinase receptor splice variant and its prognostic relevance in breast cancer. Thromb Haemost, 2003. 89(4): p. 70517.
45. Skotheim, R.I. and M. Nees, Alternative splicing in cancer: noise, functional, or systematic? Int J Biochem Cell Biol, 2007. 39(7-8): p. 1432-49.
46. Holmila, R., et al., Splice mutations in the p53 gene: case report and review of the literature. HumMutat, 2003. 21(1): p. 101-2.
47. Popov, V.M., et al., The functional significance of nuclear receptor acetylation. Steroids, 2007. 72(2): p. 221-30.
48. Wu, F. and Y.Y. Mo, Ubiquitin-like protein modifications in prostate and breast cancer. Front Biosci, 2007. 12: p. 700-11.
49. IHGSC, Finishing the euchromatic sequence of the human genome. Nature, 2004. 431(7011): p. 931-45.
50. Galperin, M.Y., The Molecular Biology Database Collection: 2007 update. Nucleic Acids Res, 2007. 35(Database issue).
51. Bentley, D.R., Whole-genome re-sequencing. Curr Opin Genet Dev, 2006.16(6): p. 545-52.
52. Fedurco, M., et al., BT A, a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies. Nucleic Acids Res, 2006. 34(3): p. e22.
53. Shendure, J., et al., Accurate multiplex polony sequencing of an evolved bacterial genome. Science, 2005. 309(5741): p. 1728-32.
54. Pertea, M. and S.L. Salzberg, Between a chicken and a grape: estimating the number of human genes. Genome Biol, 2010. 11(5): p. 206.
55. Pruitt, K.D., et al., The consensus coding sequence (CCDS) project: Identifying a common protein-coding gene set for the human and mouse genomes. Genome Res, 2009. 19(7): p. 1316-23.
56. Pruitt, K.D., et al., NCBI Reference Sequences: current status, policy and new initiatives. Nucleic Acids Res, 2009. 37(Database issue): p. D32-6.
57. Hart, T., A. Ramani, and E. Marcotte, How complete are current yeast and human protein-interaction networks? Genome Biology, 2006. 7: p. 120.
58. Kemmeren, P., et al., Protein interaction verification andfunctional annotation by integrated analysis of genome-scale data. Mol Cell, 2002. 9(5): p. 1133-43.
59. Blaschke, C., et al., Automatic extraction of biological information from scientific text: protein-protein interactions. Proc Int Conf Intell Syst Mol Biol, 1999: p. 607.
60. Golub, T.R., et al., Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 1999. 286(5439): p. 531-7.
61. Weigelt, B., F.L. Baehner, and J.S. Reis-Filho, The contribution of gene expression profiling to breast cancer classification, prognostication and prediction: a retrospective of the last decade. J Pathol, 2010. 220(2): p. 263-80.
62. Korkola, J.E., et al., Differentiation of lobular versus ductal breast carcinomas by expression microarray analysis. Cancer Res, 2003. 63(21): p. 7167-75.
63. Hedenfalk, I.A., et al., Gene expression in inherited breast cancer. Adv Cancer Res, 2002. 84: p. 1-34.
64. Zhao, H., et al., Different gene expression patterns in invasive lobular and ductal carcinomas of the breast. Mol Biol Cell, 2004. 15(6): p. 2523-36.
65. Michiels, S., S. Koscielny, and C. Hill, Interpretation of microarray data in cancer. Br J Cancer, 2007. 96(8): p. 1155-8.
66. Simon, R., et al., Pitfalls in the use of DNA microarray data for diagnostic and prognostic classification. J Natl Cancer Inst, 2003. 95(1): p. 14-8.
67. Frantz, S., An array of problems. Nat Rev Drug Discov, 2005. 4(5): p. 362-3.
68. Ioannidis, J.P., Microarrays and molecular research: noise discovery? Lancet, 2005. 365(9458): p. 454-5.
69. Marshall, E., Getting the noise out of gene arrays. Science, 2004. 306(5696): p. 630-1.
70. Michiels, S., S. Koscielny, and C. Hill, Prediction of cancer outcome with microarrays: a multiple random validation strategy. Lancet, 2005. 365(9458): p. 488-92.
71. Shi, L., et al., Cross-platform comparability of microarray technology: intra-platform consistency and appropriate data analysis procedures are essential. BMC Bioinformatics, 2005. 6 Suppl 2: p. S12.
72. Irizarry, R.A., et al., Mu Itiple-laboratory comparison of microarray platforms. Nat Methods, 2005. 2(5): p. 345-50.74.
- Досымбеков, Дамир Нуртасович
- кандидата биологических наук
- Москва, 2011
- ВАК 03.02.07
- Функциональная вариабельность генов подверженности инфекционным заболеваниям
- Вклад полиморфных вариантов генов-кандидатов сердечно-сосудистых заболеваний в фенотипическую изменчивость количественного содержания белков клеточных мембран при гипертонической болезни
- Консервативность и вариабельность ДНК ядрышковых организаторов человека
- Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий
- Оптимизация конструкций рекомбинантных ДНК для получения иммунобиологических препаратов