Бесплатный автореферат и диссертация по биологии на тему
Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий
ВАК РФ 03.02.07, Генетика

Автореферат диссертации по теме "Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий"

На правах рукописи

БЕССАРАБОВА Марина Олеговна

РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ ДАННЫХ ПО ЭКСПРЕССИИ ГЕНОВ НА ОСНОВЕ ИХ ФУНКЦИОНАЛЬНЫХ ВЗАИМОДЕЙСТВИЙ

03.02.07 - генетика 03.01.09 - математическая биология, биоинформатика

АФТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

1 У (.;;.р 201Т

Москва-2011

4840661

Работа выполнена в лаборатории системной биологии Учреждения Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва

Научный руководитель:

кандидат биологических наук

Никольская Татьяна Анатольевна, Учреждение Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва

Официальные оппоненты:

доктор биологических наук, профессор

доктор биологических наук, профессор

Гельфанд Михаил Сергеевич, Учреждение Российской академии наук Институт проблем передачи информации им. А.А.Харкевича РАН, г. Москва

Поройков Владимир Васильевич, Учреждение Российской академии медицинских наук Научно-исследовательский институт биомедицинской химии им. В.Н. Ореховича РАМН, г. Москва

Ведущее учреждение:

ГНЦ ФГУП Государственный научно-исследовательский институт генетики и селекции промышленных микроорганизмов

Защита состоится 3 ) »ХлсхЬТЧУ-- 2011 года в « |э » часов на заседании диссертационного совета Д 002.214.bl при Учреждении Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, по адресу: 119991, ГСП-1, Москва, ул. Губкина, д. 3. Факс: 8(499)1358962, электронный адрес: a.spirantura@vigg.ru, адрес в Интернете: www.vigg.ru

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН.

Автореферат разослан <-2. ¿^¿-Ьр^лР 2011г.

Ученый секретарь диссертационного совета,

кандидат биологических наук Т.А. Синельщикова

Общая характеристика работы Актуальность проблемы. В последнее время активно развивается технология ДНК-микрочипов, позволяющих одновременно измерять значения экспрессии для многих тысяч генов. Такие данные по экспрессии генов широко используются для определения подтипов заболеваний, изучения механизмов заболеваний и диагностики заболеваний. В большинстве случаев для этого применяются методы классификации и кластеризации экспрессионных данных.

Так, результатом решения задачи классификации является классификатор. Экспрессионный классификатор представляет собой набор информативных генов, значения уровня экспрессии которых, могут быть использованы для того, чтобы по некоторому правилу с определенной точностью различать биологические признаки (классы). Классификаторы высокого качества имеют практическое применение в диагностике заболеваний, поэтому оценка качества классификаторов очень важна. В большинстве случаев к основным характеристикам качества классификатора относят такие статистические характеристики как точность предсказания и воспроизводимость этой точности на независимых данных. Одновременно с этим в последнее время активно обсуждается важность третьей характеристики экспрессионных классификаторов - функциональной основы классификатора, биологически обоснованной связи его набора информативных генов с описываемым признаком.

Изучение функциональной основы классификаторов ранее было ограничено двумя факторам. Первый из них - отсутствие полноценного ресурса для функционального анализа. С появлением продукта MetaCore™ (Thomson Reuters, www.genego.com) такой всесторонний функциональный анализ стал возможен. Второй фактор, ранее ограничивающий анализ функциональной основы классификаторов - отсутствие достаточно обширной выборки классификаторов. Дизайн международного проекта MAQC II (The MicroArray Quality Control phase II, контроль качества микрочипов, фаза И) организованного Управлением по контролю качества продуктов и лекарств, США (U.S. Food and Drug Administration) предоставил уникальную возможность провести первый всесторонний функциональный анализ информативных генов экспрессионных классификаторов. Цель международного проекта MAQC состоит в оценке качества ДНК-микрочиповых данных, вторая его фаза была посвящена вопросу применимости экспрессионных данных для решения задачи классификации. Всего в рамках проекта было рассмотрено 13 патологических состояний человеческого

организма, и для каждого из них 36 независимых исследовательских групп разными методами создавали экспрессионные классификаторы и производили оценку их качества на основании статистических характеристик. В результате проекта было создано и проанализировано 262 экспрессионных классификатора. Представленная работа по функциональному анализу информативных генов экспрессионных классификаторов была сделана в рамках проекта МАС>С II с целью решения актуальной задачи оценки качества классификаторов на функциональном уровне.

Задача кластеризации экспрессионных данных предполагает поиск классов биологических объектов на основании сходства их экспериментальных характеристик. Как и в случае задачи классификации, большинство современных методов решения задачи кластеризации экспрессионных данных основывается на профилях экспрессии индивидуальных генов без учета функциональных связей между ними или с рассматриваемым признаком. В подавляющем большинстве случаев этот подход не справляется с такими сложными задачами как, например, выделение подтипов гетерогенных заболеваний. Так, самая лучшая к настоящему моменту кластеризация пациентов больных раком молочной железы, основанная на профилях экспрессии индивидуальных генов, не относит ни к одному из результирующих кластеров более одной трети выборки пациентов. Таким образом, проблема определения всех подтипов рака молочной железы остается актуальной. В нашей работе мы исследовали новый подход к кластеризации, базирующийся на использовании не только информации об экспрессии индивидуальных генов, но и информации о функционально обусловленном бимодальном характере экспрессионного профиля гена - явлении, наблюденном и изученном нами так же в рамках данной работы. Данный подход дает основу для определения всех подтипов рака молочной железы. Цели исследования:

1. Исследовать функциональную основу экспрессионных классификаторов.

2. Изучить явление бимодальности экспрессионного профиля генов и исследовать его как возможную основу для метода кластеризации.

Исходя из целей исследования, были поставлены следующие задачи; 1. Произвести функциональный анализ информативных генов 262 экспрессионных классификаторов проекта МА(}С II.

2. Оценить корреляцию между связью наборов информативных генов экспрессионных классификаторов с функциональной основой описываемого признака и параметрами качества предсказания классификаторов.

3. Создать метод определения степени бимодальности экспрессионного профиля гена.

4. Определить гены с бимодальным экспрессионным профилем для выборки экспрессионных данных по раку молочной железы и изучить их свойства.

5. Изучить возможность использования свойства бимодальности экспрессионного профиля гена для кластеризации экспрессионных профилей пациентов больных раком молочной железы, в результате которой все пациенты относились бы к одному из кластеров.

Научная новизна. 1) Впервые был проведен крупномасштабный функциональный анализ экспрессионных классификаторов, в результате которого, было показано наличие связи между функциональными характеристиками информативных генов классификаторов и соответствующим признаком. 2) Также в рамках данной работы впервые была показана положительная корреляция между согласованностью наборов информативных генов экспрессионных классификаторов на функциональном уровне и качеством предсказания классификаторов. 3) Впервые было показано, что вырожденность экспрессионных классификаторов - это явление функционально обусловленное. 4) Впервые было показано явление бимодальности экспрессионного профиля гена для рака молочной железы. 5) Был предложен новый подход к кластеризации, базирующийся на явлении бимодальности экспрессионного профиля гена, который может стать основой для определения всех подтипов рака молочной железы.

Практическое значение. Экспрессионные классификаторы используются в различных практических областях. Диагностика заболеваний - является одним из самых важных приложений экспрессионных классификаторов. Несмотря на это в последние годы доверие к экспрессионным классификаторам, как потенциальным диагностикумам, заметно снизилось. Проект МА<ЗС II ставил перед собой цель оценить качество экспрессионных классификаторов. Результатом проекта является вывод о их высоком качестве, как с точки зрения статистических параметров, так и с точки зрений исследованных в представленной работе функциональных параметров экспрессионных классификаторов. Это дает

основание для более широкого по сравнению с настоящим применения экспрессионных классификаторов в диагностике.

Экспрессионные классификаторы решают задачу дифференцировки известных подтипов болезней, тем не менее, для целей диагностики задача поиска подтипов заболевания является еще более актуальной. Так, актуальной проблемой является определение всех подтипов такого гетерогенного заболевания, как рак молочной железы. Предполагают, что термин "рак молочной железы" объединяет несколько различных болезней, с различными причинами возникновения, ходом заболеваний и прогнозами, и для каждой болезни необходима специфическая терапия. Чтобы более эффективно лечить пациентов с раком молочной железы необходимо иметь возможность диагностировать разные подтипы рака молочной железы. В настоящий момент не существует полной классификации рака молочной железы. В данной работе разработан подход к кластеризации, способный стать основой для создания такой классификации.

Апробация результатов работы. Результаты данной диссертационной работы были опубликованы в (1-5), были представлены на международных конференциях: Moscow Conference on Computational Molecular Biology, Москва, 2009 и AMATA, Hobart, 2010. Помимо этого результаты работы докладывались на межлабораторном научном семинаре Отдела геномики Учреждения Российской академии наук Институт общей генетики им. Н. И. Вавилова РАН и на научном семинаре Учреждения Российской академии медицинских наук Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича РАМН.

Декларация личного участия автора. В диссертационной работе использованы материалы, полученные лично автором, а так же совместно с коллегами: Досымбековым Д.Н., Ши В., Дезсо 3. - функциональный анализ экспрессионных классификаторов, Кирилловым Е.В. - разработка метода определения генов с бимодальным экспрессионным профилем, Ковалевой (Дудоладовой) М.В. -функциональный анализ групп коэкспрессирующихся бимодальных генов. Суммарное личное участие автора составило 70%.

Структура и объем диссертации. Диссертационная работа состоит из списка основных понятий, введения, обзора литературы, материалов и методов, результатов и обсуждения, выводов и списка цитируемой литературы. Работа изложена на 152 страницах машинописного текста, включает 11 таблиц и 25

рисунков. Список цитируемых литературных источников включает 155 наименований.

Благодарности. Автор считает приятным долгом выразить признательность своему руководителю Никольской Т.А за всестороннюю помощь в работе над диссертацией. Автор благодарен за помощь в сборе и анализе материала и продуктивные обсуждения коллегам: Никольскому Ю.В., Кириллову Е.В., Досымбекову Д.Н., Ши В., Дезсо 3., Ковалевой (Дудоладовой) М.В. Особую признательность автор выражает своим первым научным наставникам Максимовой Т.В., Равчееву Д.А. и Гельфанду М.С.

Основное содержание работы.

1. Обзор литературы. Обзор литературы состоит из двух основных частей. В первой части дано общее определение "omics" исследований и описаны их основные типы и методики. Особое внимание уделено экспрессионным данным: методике ДНК-микрочипов и статистической обработке экспрессионных данных. Приведены современные данные о дескрипторах - результате решения задач классификации и кластеризации на основании данных "omics" исследований. Детально рассмотрен такой тип дескрипторов, как экспрессионные классификаторы - результат решения задачи классификации в случае данных по экспрессии генов. Во второй части обзора описываются задачи и основные методы функционального анализа, в частности методы анализа биологических сетей и функциональных онтологий. Подробно описываются типы, способы создания и свойства биологических сетей, а также типы функциональных онтологий. Детально рассматриваются такие частные вопросы области функционального анализа как: функциональный анализ информативных генов экспрессионных классификаторов, выделение подтипов раковых заболеваний на основании экспрессионных данных, концепция функциональных дескрипторов.

2. Материалы и методы. 2.1. Материалы.

Для изучения функциональной основы экспрессионных классификаторов были исследованы информативные гены 262 классификаторов, созданных в рамках второй фазы проекта MAQC [Shi L и др, 2010].

Список бимодальных генов был определен на базе экспрессионных данных для 295 образцов рака молочной железы (далее эксперимент Sorlie295) [Chang и др.,

2005]. Для подтверждения феномена бимодальности и способности бимодальных генов формировать группы коэкспрессирующихся генов были использованы эксперименты (указаны идентификаторы базы данных GEO, http://www.ncbi.nlm.nih.gov/geo/): GSE1456, GSE7390, GSE4922 и объединенный эксперимент из 193 образцов, произведенных на платформе Agilent (далее эксперимент Agilent): GSE1992, GSE2740, GSE2741 и GSE6130.

2.2. Методы.

2.2.1.Функциональный анализ информативных генов экспрессионных классификаторов.

Для исследования функциональной основы информативных генов экспрессионных классификаторов было проведено несколько анализов:

1) Топологический анализ дает информацию о том, насколько плотно связаны объекты из изучаемого множества в биологической сети. Для оценки связанности наборов информативных генов классификаторов мы рассчитывали для каждого набора четыре параметра: средняя степень, средняя полустепень захода, средняя полустепень исхода, коэффициент кластеризации [Watts и др, 1998; Diestell и Strogatz, 2005].

2) Анализ обогащения по белковым классам. В рамках данного анализа происходит оценка степени обогащения изучаемого списка объектов представителями различных белковых классов (транскрипционными регуляторами, рецепторами, лигандами, киназами, протеазами, фосфатазами, ферментами и белками с неизвестной функцией). Уровень значимости обогащения для каждого белкового класса определялся с помощью значения p-value, рассчитанного по формуле гипергеометрического распределения.

3) Анализ обогащения по функциональным онтологиям применяется для того, чтобы определить биологические пути, процессы, болезни характерные для изучаемого множества генов [Tilford и Siemers, 2009]. Анализ был произведен как для общедоступных онтологий: GO Processes (биологические процессы GO) и GO Molecular Functions (молекулярные функции GO), так и для специальных MetaCore™ онтологий: GeneGo Pathway Maps (набор схем сигнальных путей), GeneGo Biological Processes (набор биологических сетей, являющихся моделями основных биологических процессов), GeneGo Diseases by Biomarkers (каждой болезни в этой онтологии соответствует набор генов-биомаркеров). Результатом анализа обогащения является профиль обогащения, представляющий собой

список процессов, путей или болезней ранжированных по значению p-value, рассчитанному по формуле гипергеометрического распределения и отражающему значимость обогащения, то есть степень релевантности данного процесса, пути, болезни к изучаемому списку генов.

4) Анализ предков и потомков вершин биологической сети. В ориентированной биологической сети MetaCore™ каждая вершина может иметь предков и потомков данной вершины. Предок для вершины w - всякая вершина v, из которой достижима w. Потомок для вершины v - любая вершина w, достижимая из v. В нашей работе мы анализировали предков и потомков, которые отстоят на одно ребро от рассматриваемой вершины. Данные о предковых и потомковых вершинах для исследуемых наборов информативных генов далее суммировались в пределах признаков (патологических состояний) и выделялись наиболее часто встречающиеся предки и потомки для каждого признака.

Все вышеперечисленные анализы проводились с помощью продукта MetaCore™ на базе биологической сети MetaCore™ [Bureeva и др., 2009]. Парная согласованность наборов информативных генов на уровне генного состава и на функциональном уровне рассчитывалась с помощью каппа-статистики. Для расчета каппа-статистики использовался пакет {concord} статистической оболочки R [Ihaka и др., 1996].

2.2.2. Анализ явления бимодалыюсти экспрессионного профиля генов. Определение бимодальных генов. В данной работе был разработан метод определения генов с бимодальным экспрессионным профилем. Пусть мы имеем набор экспрессионных профилей образцов, например экспрессионные профили для когорты пациентов. В каждом экспрессионном профиле некоторому гену соответствует определенный сигнал, отражающий уровень экспрессии данного гена. Бимодальными называются гены, которые имеют два различных экспрессионных состояния, две моды, т.е. гены, для которых распределение экспрессионного сигнала имеет два выраженных максимума, или пика (Рисунок 1). Выделение бимодальных генов основано на нахождении для каждого гена характеристического значения сигнала, такого, чтобы сигналам меньшим этого значения соответствовал меньший из пиков распределения, а большим - больший пик.

При подсчете бимодальности генов мы предполагали, что распределение экспрессионного сигнала для бимодального гена в когорте пациентов

представляет собой сумму двух нормальных распределений. Определим как сигнал г-го гена в -/-ом эксперименте; - разбиение множества всех

экспрессионных профилей на два подмножества (зависящих от конкретного ' -го гена); . количество экспрессионных профилей, отнесённых к каждому из

1>/ 1>/ \ Ч иг I/

подмножеств; ■ < - среднее значение сигнала '-го гена в каждом

из подмножеств

Необходимо найти такое разбиение, которому соответствует наименьшее значение

уии] гМ) = "(А))2 +1 (*/

' \ " '>: . Для этого достаточно проверить

только такие разбиения, что ^ 6 :Л'/ --5, . сигналы в подмножестве

меньше сигналов в подмножестве и>. Число возможных разбиений с таким свойством на единицу больше числа экспрессионных профилей (включая два случая с пустыми подмножествами). Для найденного «оптимального» разбиения

обозначим и ^ Тогда, характеристический сигнал Т-,

гт. 1,+":

Т,=~-^

будет вычисляться по формуле: 2 .

Характеристический сигнал Т-, является границей между подмножествами «оптимального» разбиения. Т.е. ^6:^ ~т>&^(Рисунок 1).

Рисунок 1. Распределение экспрессионного сигнала

бимодального гена 01Ш7 для когорты из 295 пациентов эксперимента 5огПе295.

Сигнал

В качестве оценки уровня бимодальности может быть использована мера изолированности сигналов в подмножествах друг от друга т>, которая

рассчитывается по формуле , где М . общее число экспрессионных

профилей.

Выделение групп коэкспрессирующихся бимодальных генов. Для каждого гена-кандидата вычисляли расстояние по косинусу до всех других генов.

Аутлаеры к 0 получившегося распределения (при их наличии) вместе с исходным геном-кандидатом формировали группу коэкспрессирующихся бимодальных генов. Этот метод позволяет нам определить группы генов со сходными экспрессионными профилями в пределах группы и достаточно отличными от других генов.

Для выделения бимодальных генов, нормализации и определения групп коэкспрессирующихся генов использовалась программа Ма&аЬ.

3. Результаты и обсуждение

3.1. Исследование функциональной основы экспрессионных классификаторов.

3.1.1. Функциональный анализ экспрессионных классификаторов. Как уже было отмечено, представленная работа по функциональному анализу информативных генов экспрессионных классификаторов была сделана в рамках проекта МАС>С II с целью решения актуальной задачи оценки качества экспрессионных классификаторов на функциональном уровне, то есть исследования биологически обоснованной связи наборов информативных генов классификаторов с описываемым признаком.

Всего в рамках проекта было рассмотрено 13 признаков - 13 патологических состояний человеческого организма:

1. Три патологических состояния характеризовали ответ на проникновение ксенобиотиков в организм, далее в тексте состояния токсичности (идентификаторы А, В, С).

2. десять патологических состояний соответствовали раковым заболеваниям: раку молочной железы (идентификаторы О, Е), миеломе (Б, в, Н, I) и глиобластоме (I, К, Ь, М).

36 независимых исследовательских групп разными методами создали в общей сумме 262 экспрессионных классификатора.

Для исследования биологически обоснованной связи наборов информативных генов классификаторов с описываемым признаком, патологическим состоянием, нами был произведен функциональный анализ информативных генов 262 экспрессионных классификаторов проекта МАС|С II с помощью продукта МйаСоге™ на базе биологической сети Ме1аСоге™.

Один из методов функционального анализа, топологический анализ, дает представление о том, насколько плотно связаны объекты из изучаемого множества в биологической сети, характеристика этой связанности выражается в параметрах: степень вершины сети (общее число связанных с вершиной ребер сети), полустепень захода (число ребер, входящих в вершину), полустепень исхода (число ребер, исходящих из вершины).

Объекты биологической сети имеют разные топологические характеристики в зависимости от их функции (Рисунок 2). Биологический процесс с точки зрения организации биологической сети может быть схематично представлен следующим образом: сигнал, возникающий в результате взаимодействия лиганда с рецептором проходит по сигнальному каскаду на транскрипционный фактор, который регулирует работу эффекторных белков. Транскрипционные факторы характеризуются большим числом выходящих ребер, соответствующих регуляторной активности фактора, и малым количеством входящих ребер, отражающих регуляцию работы самого этого фактора. То есть транскрипционные факторы характеризуются более высоким значением полустепени исхода по сравнению с полустепенью захода. Эффекторные белки, например, такие как ферменты, наоборот, как правило, подвержены активной регуляции со стороны других объектов сети, в то время как сами они весьма специфичным образом влияют на малое количество объектов сети, то есть характеризуются более высоким значением полустепени захода по сравнению с полустепенью исхода.

Соотношение средней полустепени захода и средней полустепени исхода для наборов информативных генов классификаторов отражало биологическую основу соответствующих патологических состояний. Высокое значение средней полустепени захода по сравнению со средней полустепенью исхода для наборов информативных генов классификаторов состояний токсичности А, В, С, характеризующих ответ на проникновение ксенобиотиков в организм, коррелировало с высоким содержанием в составе этих наборов информативных генов эффекторных белков, таких как метаболические ферменты, участвующие в метаболизме ксенобиотиков (по данным анализа обогащения по белковым классам).

СПЗ/СПИ для состояния токсичности А

ки

V

/

/

к

^ Классификаторы

Для состояния токсичнсти А Средняя полустепень захода > средняя полустепень исхода Высокое содержание метаболических Ферментов

Эффектор метаболический фермент

СПЗ/СПИ для ракового состояния £

Для ракового состояния £ Средняя полустепень захода < средняя полустепень исхода Высокое содержание транскрипционных факторов

^ Классификаторы

-•-СПЗ --СПИ

Модулятор I транскрипционный фактор

Рисунок 2. Топологические характеристики наборов информативных генов классификаторов для состояния токсичности А и ракового состояния Е.

Мы наблюдали обратное соотношение этих параметров для ракового состояния Е. Оно коррелировало с обогащением соответствующих наборов информативных

генов транскрипционными факторами, которое объясняется интенсивной транскрипционной активностью в образцах инвазивного рака молочной железы Результаты анализа предковых и потомковых вершин для наборов информативных генов классификаторов также указывали на наличие биологически обоснованной связи этих генов с описываемым признаком. Для большого числа классификаторов экспрессия их информативных генов регулировалась очень ограниченным числом транскрипционных факторов (предковых вершин, связанных с информативными генам ребрами типа «транскрипционная регуляция»), отображая при этом биологическую основу соответствующих патологических состояний. Например, 9 из 24 наборов информативных генов состояния токсичности А включали в свой состав мишени ключевого транскрипционным фактором NRF2, отвечающего за реакцию клетки на оксидативный стресс. 17 из 24 наборов информативных генов ракового состояния Е включали в свой состав мишени транскрипционного фактора HNF3, ответственного за развитие эпителия, а 16 из 24 включали мишени транскрипционного фактора ESR1, известного генетического маркера рака молочной железы. Также специфичной к патологическому состоянию оказалась регуляция, осуществляемая белками, соответствующими информативным генам классификаторов. При поиске потомковых вершин для этих белков было обнаружено, что они регулировали ограниченное число объектов. Так, 16 из 24 наборов информативных генов состояния токсичности А содержали гены ферментов метаболизма лекарственных препаратов, потомковыми вершинами для этих наборов генов являлись реакции. 20 из 24 наборов информативных генов ракового состояния Е содержали гены, кодирующие белки, которые регулируют активность тирозин-3-монооксигеназы; 19 содержали гены, белки которых регулируют белок CG alpha, а 11 содержали гены, белки которых регулируют работу интерлейкина-4.

Анализ обогащения по функциональным онтологиям применяется для того, чтобы определить биологические пути, процессы, болезни характерные для изучаемого множества генов. Мы получили профили обогащения по функциональным онтологиям для объединенных множеств информативных генов для каждого патологического состояния. Эти профили демонстрировали высокий уровень зависимости от соответствующих признаков, в большинстве случаев согласуясь с биологической основой патологических состояний. Так, объединения информативных генов для состояний токсичности были обогащены процессами,

характеризующими токсичность: оксидативный стресс, метаболизм глутатиона, работа ферментов метаболизирующих лекарственные препараты, регуляция экспрессии генов таких ферментов, а для рака молочной железы - биомаркерами рака молочной железы и процессами, характерными для инвазивного канцерогенеза: клеточная адгезия, апоптоз, сигнальный путь PLAU, сигнальный путь эстрогенового рецептора.

Таким образом, функциональный анализ 262 экспрессионных классификаторов проекта MAQC II показал, что наборы информативных генов классификаторов, построенных различными методами, обладают функциональной основой, согласующейся с описываемым признаком. Этот факт представляется не случайным и указывает на то, что методы классификации обладают свойством направленно отбирать гены, характеризующие функциональную основу анализируемого признака.

3.1.2. Вырожденность экспрессионных классификаторов.

Одной из причин для критики экспрессионных классификаторов является вырожденность классификаторов, для которых в зависимости от метода отбора может быть несколько количественных решений с эквивалентной достоверностью с точки зрения параметров качества предсказания [Ein-Dor и др, 2006]. В нашей работе в результате функционального анализа мы показали, что это явление функционально обусловлено: различные методы построения классификаторов отбирают в качестве информативных генов разные подмножества генов одного и того же биологического процесса (Рисунок 3).

Таким образом, вырожденность экспрессионных классификаторов функционально обусловлена.

3.1.3. Корреляция между качеством предсказания экспрессионных классификаторов и связью информативных генов экспрессионных классификаторов с функциональной основой описываемого признака. Взаимосвязь между согласованностью классификаторов на уровне состава генов и качеством предсказания была уже показана ранее [Shi L. и др., 2010]. Мы поставили перед собой задачу исследовать корреляцию между согласованностью классификаторов на уровне биологических процессов и качеством предсказания классификаторов.

Биологический процесс

ООО

оо

Классификатор 1

Классификатор 2

о

Л '

Точность Классификатор 1

Вырожденность:

Точность Классификатор 2

Рисунок 3. Вырожденность экспрессионных классификаторов функционально обусловлена.

Мы рассчитали значения парной согласованности наборов информативных генов классификаторов с помощью каппа статистики на двух уровнях: уровне генного состава и уровне списка биологических процессов, характеризующих каждый набор информативных генов по данным анализа обогащения, то есть на функциональном уровне.

Как для уровня генного состава, так и для функционального уровня мы наблюдали положительную корреляцию между сходством наборов информативных генов, которое выражалось через усредненные значения p-value согласованности каппа статистики по всем наборам информативных генов для каждого признака, и качеством предсказания классификаторов, выраженным через средние значения параметров качества предсказания по всем классификаторам для каждого признака, рассчитанные как коэффициент корреляции Matthew. Эта корреляция была выше для сходства на функциональном уровне, чем для сходства на уровне генного состава.

Это достаточно неожиданное и важное наблюдение: чем выше связь наборов информативных генов с функциональной основой описываемого признака, определяющая уровень их согласованности, тем выше качество предсказания классификаторов.

Таким образом, существует положительная корреляция между качеством предсказания экспрессионных классификаторов и связью информативных генов экспрессионных классификаторов с функциональной основой описываемого признака.

3.2. Анализ явление бимодальности экспрессионного профиля генов. 3.2.1. Явление бимодальности экспрессионного профиля гена. В нашей работе мы описали явление бимодальности экспрессионного профиля генов для рака молочной железы. Мы сравнили распределения экспрессионного сигнала по 295 образцам рака молочной железы [Chang и др., 2005] для всех генов и обнаружили, что функция распределения экспрессионного сигнала некоторых генов не была близка к нормальному распределению, что в среднем характерно для распределения количественных признаков, а содержала два отчетливых пика [Fisher, 1918] (Рисунок 1). Мы назвали такой экспрессионный профиль бимодальным. Для того чтобы определять гены с таким бимодальным экспрессионным профилем, мы разработали и применили к каждому гену эксперимента статистику т, сходную с t-статистикой, которая оценивает относительную разницу между средними значениями сигналов для двух пиков (см. Материалы и методы). Для нормального распределения экспрессионного сигнала для некоторого гена, т ~ 2.64. Тогда более широкое распределение, потенциально бимодальное или мультимодальное, характеризуется т > 2.64. Мы применили статистику т, чтобы выбрать гены, экспрессионные: профили которых имеют наибольшую разницу между двумя пиками, и назначали такие гены бимодальными. Так, типичным бимодальным геном является ген GRB7, для которого т = 4.81. Всего 2476 генов из 10604 были определены как бимодальные для эксперимента Sorlie295.

Чтобы показать, что явление бимодальности экспрессионного профиля не зависит ни от типа платформы, ни от экспериментальных условий, ни от состава когорты пациентов мы применили статистику т еще к четырем независимым экспериментам (Таблица 1). Попарные пересечения множеств бимодальных генов из разных экспериментов были большими и статистически значимыми. Для 866 генов экспрессионный профиль был бимодальным как минимум для трех экспериментов и трех разных платформ. То есть бимодальность индивидуальных генов подтвердилась как минимум для трех независимых экспериментов, а в некоторых случаях и для четырех или пяти экспериментов.

Таким образом, наблюденный нами бимодальный характер экспрессионных профилей генов для образцов рака молочной железы - это феномен не ограниченный типом платформы, экспериментальными условиями и составом когорты пациентов.

Мы предполагаем, что бимодальность экспрессионного профиля гена функционально обусловлена, и каждой из мод соответствует определенное физиологическое состояние, например различные подтипы одной болезни. То есть в случае рака молочной железы, бимодальные гены могут являться болезнь-специфичными.

Sorlie295 GSE1456 GSE7390 GSE4922 Agilent

Платформа кДНК Aflymetrix Aflymetrix Aflymetrix Agilent

Бимодальные гены 2476(10604") 5075(12017") 5440(12017") 4874 (12017") 4983(13379")

Таблица 1, Бимодальные гены для 5 экспериментов, (а - количество генов на соответствующей платформе).

Функциональный анализ 866 бимодальных генов с помощью программы MetaCore™ показал вовлеченность рассматриваемых генов в биологические процессы и пути, связанные с развитием рака: перестройка внеклеточного матрикса, деградация соединительной ткани, морфогенез кровеносных сосудов, подавление клеточной пролиферации, функционирование микротрубочек веретена деления, сигнальный каскад амфотерина (воспаление), взаимодействие клетки с экстраклеточным матриксом, основные этапы клеточного цикла, регуляция клеточного цикла факторами роста G1/S фазы, сигнальный путь ядерного эстрогенового рецептора. 207 из этих 866 генов были описаны ранее в литературе как гены, ассоциированные с раком молочной железы. И, наконец, данный набор бимодальных генов насыщен мишенями лекарств - 69 мишеней лекарств из 866 бимодальных генов.

Таким образом, идентифицированные 866 бимодальных генов являются специфичными к раку молочной железы.

3.2.2. Явление бимодальности экспрессионного профиля гена как основа для кластеризации.

В ряде исследований было показано, что экспрессия групп функционально связанных генов, функциональных модулей, является более устойчивым дескриптором, чем экспрессия генов функционально независимых [Chyang и др.,

2007; Kim и Kim, 2008]. Примером таких функциональных дескрипторов являются дескрипторы формирования метастаз у больных раком молочной железы, которые представляют собой функциональны модули - подсети взаимодействующих белков в глобальной биологической сети [Chyang и др., 2007] (Рисунок 4, А). Мы поставили пред собой цель изучить функциональные модули, в основе которых лежит явление бимодальности, как дескрипторы для кластеризации. Мы исследовали возможность формирования таких функциональных модулей, предполагая, что члены модуля должны иметь синхронизированную экспрессию среди всех образцов эксперимента. Экспрессионный профиль бимодального гена может быть использованы для разделения образцов на две группы, отвечающие различным экспрессионным состояниям профиля, модам. Событие, когда один ген имеет бимодальный профиль, представляется более случайным, чем когда такой же профиль имеет целый набор функционально связанных генов. Поэтому, ожидается, что разделение образцов по среднему экспрессионному профилю группы функционально связанных генов будет более устойчивым и функционально осмысленным, чем разделение по отдельным генам.

Рисунок 4. Функциональные дескрипторы формирования метастаз у больных раком молочной железы и группа коэкспрессирующихся бимодальных генов "ERBB2". (А) Функциональные дескрипторы формирования метастаз у больных раком молочной железы [Chyang и др., 2007]; (Б) Усредненный экспрессионный профиль группы коэкспрессирующихся бимодальных генов "ERBB2"; (В) На основании среднего экспрессионного профиля группы генов "ERBB2" когорта образцов может быть разделена на две группы; (Г) Коэкспрессирующиеся гены группы "ERBB2" формируют функциональный модуль.

19

Д-

I- t

E2F1 MDM2 ÉrbB4

(S?

ERBB2

GftB7

Д - М - х E2F1 MDM2 ÉrbB4

ERBB2

Чтобы найти такие функциональные модули для рака молочной железы мы решили начать с 5 бимодальных генов, описанных как важные генетические маркеры рака молочной железы - Е1ФВ2, Е8Ш, РЬА1Ж, БЖ, БТАИ. Для каждого из этих генов мы вычислили группы коэкспрессирующиехся генов на основании экспрессионных профилей генов из эксперимента 8огИе295 (Материалы и методы, Таблица 2). Экспрессионные профили генов, входящих в одну группу, были синхронизированы и разделяли образцы единообразно. Таким образом, каждая группа коэкспрессирующихся бимодальных генов, как самостоятельная единица, может быть использована для разделения образцов на группы на основании среднего экспрессионного профиля.

Гены групп были функционально связаны. Так, например, гены из ЕШЗВ2 группы входят в состав известного ампликона, ассоциированного с раком молочной железы [Каигашегш и др., 2007]. Кроме того гены групп формировали компактные биологические сети, а 15 из 23 генов идентифицированных групп были ранее описаны в литературе как гены, ассоциированные с раком молочной железы. Эти факты указывают на то, что каждая такая группа коэкспрессирующихся бимодальных генов - это функциональный модуль. А разделение когорты пациентов на группы в соответствии со средним экспрессионным профилем таких групп будет производиться на основе молекулярных закономерностей. Например, для части пациентов весь функциональный модуль ЕИКВ2 деактивирован, а для части - активирован (Рисунок 4, Б-Г)

Группа 1 Группа 2 Группа 3 Группа 4 Группа 5

ЕИВВ2 ЕвЮ РЬАШ вТАТ1

вявг Е5К1 СОЫ1А1 гаг/ 5ТАТ1

ЕЯВВ2 вАТАЗ Р1АШ СОЬ5А2 15015

гаиш РОХА1 САПЕР С01ЛА2 МХ1

ТСАР АЯ ТМЕМ158 схсио

ОЫАШ ТСВ1 РЬБСШ

СЯЕВ1 АйМ

Таблица 2. Пять групп коэкспрессирующихся генов для эксперимента 5огНе295 (курсивом отмечены гены, ассоциированные с раком молочной железы).

Таким образом, выделенные группы коэкспрессирующихся бимодальных генов являются функциональными модулями, и кластеризация, базирующаяся на таких функциональных модулях, будет производится на основании функциональных закономерностей.

Для того, чтобы проследить поведение этих групп генов на других экспериментах, мы исследовали экспрессионные профили у каждой группы генов для всех 5 исследованных экспериментов одновременно. На Рисунке 4, В представлен экспрессионный профиль группы генов ЕЯВВ2 для всех 1094 образцов исследованных экспериментов. Видно, что гены в пределах группы экспрессируются синхронно для всех образцов вне зависимости от того, в состав какого эксперимента входит образец. Такую же синхронную экспрессию мы получили для всех выделенных групп генов (Рисунок 5, А). Тот факт, что все пять групп бимодальных генов демонстрировали синхронный характер экспрессии вне зависимости от исследования и типа платформы, является весьма значительным, поскольку экспрессионные эксперименты известны низким уровнем сопоставимости между данными для разных платформ, разных наборов образцов и различных экспериментальных условий, кроме того рак молочной железы сам по себе очень гетерогенен.

Таким образом, синхронный характер экспрессионных профилей генов выделенных групп не зависел от условий эксперимента, типа платформы и когорты пациентов. Другими словами, группы коэкспрессирующихся бимодальных генов являются устойчивыми дескрипторами.

Все вышеперечисленные свойства групп коэкспрессирующихся бимодальных генов дают возможность использовать их как функциональные дескрипторы с целью эффективной кластеризации образцов, разделения когорты пациентов на подгруппы.

Группа 1 (Е1?ВВ2) Группа 1 (ЕР!ВВ2)

шшта

шшшт i iüüj dl ни im

Группа 2 (ESR1) _■

ЯШШШШI

_L

Группа 2 (ESR1) |

ЯШШ ЧШИ j i. fi [ III.

! 1Щ II II Ja?

1Uli]

Группа 3 (Р1_А1Ш) Группа 3 (PLAUR) i ■ '

ШИНПИНИ ■им— 1 ——мимиими III 2;

Группа 4 ^N1) Группа 4 (FN1) \

ИШННИИШНШШШШИ ■ршця 1 miimim 2

Группа 5 (ЭТАТ1) i Группа 5 (STAT1)

IDillHll I II Iii U li llllllllllllllinil

1-2-1-1-1 кластер пациентов Рисунок 5. Экспрессионные профили пяти групп коэкспрессирующихся бимодальных генов (А) и формирование кластера пациентов в результате последовательного применения пяти групп коэкспрессирующихся бимодальных генов (Б).

Такое разделение может иметь последовательный характер: первая группа разделяет все когорту пациентов на два кластера соответственно двум модам, потом вторая группа разделяет каждый кластер на два новых кластера и так далее. Если обозначить моды группы генов за 1 и 2, то в результате такого последовательного разделения каждый образец будет иметь код из пяти цифр, отражающих принадлежность образца к одной из мод каждой группы, например 1-2-1-1-1 (Рисунок 5, Б). Образцы со сходными кодами могут быть объединены в группы. В Таблице 3 мы привели для примера несколько пациентов эксперимента 8огНе295 с их индивидуальными кодами, отражающими принадлежность соответствующего экспрессионного профиля к одной из мод каждой из пяти определенных нами групп коэкспрессирующихся бимодальных генов. В отличие от традиционного метода кластеризации, в результате которого около 1/3 выборки пациентов не относились ни к одному из классов, при использовании нашего подхода к кластеризации каждый пациент был отнесен к той или иной результирующей группе.

Таким образом, был разработан подход к кластеризации, основанный на функционально обусловленном бимодальном характере экспрессионного профиля генов, который может быть использован для полной кластеризации выборки пациентов с раком молочной железы.

Номер пациента Группа 1 Группа 2 Группа 3 Группа 4 Группа 5

4 1 2 1 1 2

6 1 2 1 1 1

7 1 2 2 2 1

8 1 2 2 1 2

9 1 2 2 2 1

Таблица 3. Кластеризация пациентов эксперимента 5огНе295 согласно экспрессионным профилям пяти групп коэкспрессирующихся бимодальных генов на примере 5 пациентов. 1 и 2 -моды группы коэкспрессирующихся бимодальных генов.

Выводы

1. Функциональный анализ 262 экспрессионных классификаторов проекта МА(}С II показал, что наборы информативных генов классификаторов, построенных различными методами, обладают функциональной основой, согласующейся с описываемым признаком. Этот факт представляется не случайным и указывает на то, что методы классификации обладают свойством направленно отбирать гены, характеризующие функциональную основу анализируемого признака.

2. Вырожденность экспрессионных классификаторов функционально обусловлена.

3. Существует положительная корреляция между качеством предсказания экспрессионных классификаторов и связью информативных генов экспрессионных классификаторов с функциональной основой описываемого признака.

4. Для выборки экспрессионных данных по раку молочной железы мы описали свойство некоторых генов формировать два различных уровня экспрессии, свойство бимодальности экспрессионного профиля гена.

5. Мы разработали метод определения степени бимодальности экспрессионного профиля гена на основе расчета статистики т, сходной с I-статистикой, которая оценивает относительную разницу между средними значениями сигналов для двух пиков распределения.

6. Мы определили 866 генов с бимодальным экспрессионным профилем для выборки экспрессионных данных по раку молочной железы и показали, что бимодальность — это свойство экспрессии гена специфичное по отношению к физиологическому состоянию, и не зависящее от типа платформы, экспериментальных условий и состава когорты пациентов.

7. Был разработан подход к кластеризации, основанный на функционально обусловленном бимодальном характере экспрессионного профиля генов, который может быть использован для полной кластеризации выборки пациентов с раком молочной железы.

Публикации по материалам работы:

Статьи:

1. Bessarabova М. Kirillov Е, Shi W, Bugrim A, Nikolsky Y, Nikolskaya Т. Bimodal gene expression patterns in breast cancer. BMC Genomics. 2010,10; 11 Suppl 1.S8.

2. Shi W, Bessarabova M. Dosymbekov D, Dezso Z, Nikolskaya T, Dudoladova M, Serebryiskaya T, Bugrim A, Guryanov A, Brennan RJ, Shah R, Dopazo J, Chen M, Deng Y, Shi T, Jurman G, Furlanello C, Thomas RS, Corton JC, Tong W, Shi L, Nikolsky Y. Functional analysis of multiple genomic signatures demonstrates that classification algorithms choose phenotype-related genes. Pharmacogenomics J. 2010; 10(4):310-23.

3. Popovici V, Chen W, Gallas BG, Hatzis C, Shi W, Samuelson FW, Nikolsky Y, Tsyganova (Bessarabova) M. Ishkin A, Nikolskaya T, Hess KR, Valero V, Booser D, Delorenzi M, Hortobagyi GN, Shi L, Symmans WF, Pusztai L. Effect of training-sample size and classification difficulty on the accuracy of genomic predictors. Breast Cancer Res. 2010; 12(1):R5.

Тезисы докладов:

4. Tsyganova (Bessarabova) M.. Dosymbekov D., Dezso Z., Nikolskaya Т., Nikolsky Y. The Tale of "Underlying Biology": Functional Analysis of MAQCII Data, MCCMB-2009.

5. Bessarabova M.. Nikolsky Y. Functional analysis reveals the biological underpinnings of predictive genomic structures. AMATA 2010 Conference.

Заказ № 39-а/02/2011 Подписано в печать 18.02.2011 Тираж 80 экз. Усл. п.л. 1

ч ООО "Цифровичок", тел. (495) 649-83-30

\ (^) ] с/г. ги; е-тай: т/о@с/г, ги

Содержание диссертации, кандидата биологических наук, Бессарабова, Марина Олеговна

ОГЛАВЛЕНИЕ.

СПИСОК СОКРАЩЕНИЙ.;.

ОСНОВНЫЕ ПОНЯТИЯ.

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ.

1.1. "Описв" исследования.

1.1.1. Общее определение и типы "описз" исследований.

1.1.2. ДНК-микрочипы.

1.1.3. Обработка экспрессионных данных.

1.1.4. Дескрипторы, как результат "описз" исследований.

1.1.5. Общий принцип создания экспрессионных классификаторов.

1.2. Функциональный анализ.

1.2.1. Биологическая сеть.

1.2.2. Методы анализа биологической сети.

1.2.3. Анализ обогащения.

1.2.4. Сравнение высокопроизводительных данных.

1.2.5. Функциональный анализ информативных генов классификаторов.

1.2.6. Функциональные дескрипторы.

1.2.7. Выделение подтипов раковых заболеваний на основании экспрессионных данных.

ГЛАВА 2. МАТЕРИАЛЫ И МЕТОДЫ.

2.1. Данные для анализа.

2.2. Анализ топологии биологической сети.

2.3. Функциональны анализ обогащения.

2.4. Анализ предков и потомков вершин биологической сети.

2.5. Связанность белков в пределах исследуемого множества (интра-связанность) и связанность белков между изучаемым множеством и остальным интерактомом (интер-связанность).

2.6. Непосредственно связанные сети и усредненный кратчайший путь.

2.7. Расстояние в сети между двумя множествами.

2.8. Подсчет значимости пересечений наборов информативных генов классификаторов и их объединенных множеств.

2.9. Каппа статистика.

2.10. Сравнение иерархических деревьев.

2.11. Выделение бимодальных генов.

2.12. Нормализация по бимодальности.

2.13. Поиск групп коэкспрессирующихся бимодальных генов.

ГЛАВА 3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

3.1. Функциональный анализ информативных генов классификаторов.

3.1.1. Описание данных.

3.1.2. Наборы информативных генов для разных признаков отличаются по белковому функциональному профилю.

3.1.3. Топологические параметры наборов информативных генов классификаторов зависят от признака.

3.1.4. Транскрипционная регуляция информативных генов классификаторов и регуляция, осуществляемая самими информативными генами, отражают биологическую основу соответствующих признаков.

3.1.5. Способность наборов информативных генов и их объединенных множеств формировать непосредственно связанные сети.

3.1.6. Анализ обогащения по функциональным онтологиям наборов информативных генов и их объединенных множеств.

3.1.7. Анализ функциональных закономерностей для информативных генов признаков Н, I, Ь и М.

3.1.8. Сходство наборов информативных генов.

3.1.9. Корреляция между сходством наборов информативных генов и качеством предсказания классификаторов.

3.1.10. Обсуждение.

3.2. Явление бимодальности экспрессионного профиля генов.

3.2.1. Феномен бимодальности экспрессионного профиля генов и идентификация бимодальных генов.

3.2.2. Бимодальность экспрессионного профиля гена функционально обусловлена.

3.2.3. Нормализация экспрессии для бимодальных генов.

3.2.4. Группы коэкспрессирующихся генов как функциональные модули.

3.2.5. Группы коэкспрессирующихся генов как потенциальные дескрипторы для кластеризации образцов рака молочной железы.

3.2.6. Обсуждение.

ВЫВОДЫ.

Введение Диссертация по биологии, на тему "Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий"

В" последние годы активно развивается направление "omics" исследований, в рамках которых при помощи высокопроизводительных молекулярно-биологических методов стало возможным одновременно получить информацию о практически всех компонентах биологической системы, как на генетическом, так и на постгенетическом уровнях.

Одной из главных целей "omics" исследований является определение дескрипторов биологических признаков, которые являются решением двух основных задач:

- Задача классификации. Данная задача предполагает наличие выборки биологических объектов, например экспрессионных профилей, для которых известно, к каким классам, например подтипам болезней, они относятся. На базе этой выборки создается классификатор, способный классифицировать произвольный объект как представителя одного из классов. Классификатор представляет собой подмножество информативных генов (или белков), экспериментальные характеристики которых, например уровень экспрессии, могут быть использованы для того, чтобы по некоторому правилу различать биологические состояния (классы). Так, за последнее десятилетие было создано большое число экспрессионных классификаторов для предсказания различных биологических признаков, например, формирования метастаз у больных раком молочной железы [Chang и др., 2005; van't Veer и др., 2002].

- Задача кластеризации. Данная задача предполагает поиск классов биологических объектов на основании сходства их экспериментальных характеристик. Примером такой задачи может быть поиск подтипов рака молочной железы путем кластеризации экспрессионных профилей пациентов, то есть формирования кластеров таким образом, чтобы каждый кластер состоял из схожих экспрессионных профилей, а экспрессионные профили разных кластеров существенно отличались.

В настоящее время в большинстве случаев исследователи в рамках этих двух задач не учитывают функциональные связи генов или белков между собой или с изучаемым признаком. Так, чаще всего к основным характеристикам классификатора относят такие статистические характеристики как точность предсказания и воспроизводимость этой точности на независимых данных. Однако в последнее время ряд авторов указывают на важность третьей характеристики классификаторов — функциональной основы классификатора, биологически обоснованной связи его набора информативных генов с описываемым признаком. Изучение функциональной основы классификаторов ранее было ограничено отсутствием достаточно обширной выборки классификаторов.

Дизайн проекта MAQC II (MicroArray Quality Control phase II, контроль качества микрочипов, фаза II) [Shi L и др., 2010] предоставил уникальную возможность провести первый всесторонний функциональный анализ информативных генов экспрессионных классификаторов. В рамках проекта были проанализированы 6 экспрессионных экспериментов для 13 биологических признаков, среди которых три соответствовали патологиям, индуцированным, химическими соединениями, и десять - различным раковым состояниям. Организаторы проекта* создали уникальные условия, предполагающие, что для одного и того же набора экспрессионных данных, соответствующих некоторому признаку, 36 исследовательских групп независимым образом построят классификаторы 36 различными методами для каждого изучаемого признака. Всего в рамках проекта было создано 262 классификатора, для которых мы и произвели оценку качества на функциональном уровне.

Как и в случае задачи классификации, большинство современных методов кластеризации экспрессионных данных основывается на профилях экспрессии индивидуальных генов без учета функциональных связей между ними или с изучаемым признаком. Однако этот подход не справляется с такими сложными задачами как, например, выделение подтипов гетерогенных заболеваний. Так, самая лучшая к настоящему моменту кластеризация пациентов с раком молочной железы, основанная на профилях экспрессии индивидуальных генов, не относит ни к одному из результирующих кластеров около одной трети выборки пациентов [80гНе и др., 2003]. В нашей работе мы исследовали новый подход к кластеризации, базирующийся на использовании не только информации об экспрессии индивидуальных генов, но и информации о функционально обусловленном бимодальном характере экспрессионного профиля гена - явлении, наблюденном и изученном нами так же в рамках данной работы. Данный подход не только решает ряд проблем мета-анализа, которые не решает традиционный подход, но и создает основу для создания полной классификации подтипов рака молочной железы. Цели работы:

1. Исследовать функциональную основу экспрессионных классификаторов.

2. Изучить явление бимодальности экспрессионного профиля генов и исследовать его как возможную основу для метода кластеризации. Задачи:

1. Произвести функциональный анализ информативных генов 262 экспрессионных классификаторов проекта МАС)С II.

2. Оценить корреляцию между связью наборов информативных генов экспрессионных классификаторов с функциональной основой описываемого признака и параметрами качества предсказания классификаторов.

3. Создать метод определения степени бимодальности экспрессионного профиля гена.

4. Определить гены с бимодальным экспрессионным профилем для выборки экспрессионных данных по раку молочной железы и изучить их свойства.

5. Изучить возможность использования свойства бимодальности экспрессионного профиля гена для кластеризации экспрессионных профилей пациентов больных раком молочной железы, в результате которой все пациенты относились бы к одному из кластеров.

Научная новизна. 1) Впервые был проведен крупномасштабный функциональный анализ экспрессионных классификаторов, в результате которого, было показано наличие связи между функциональными характеристиками информативных генов классификаторов и соответствующим признаком. 2) Также в рамках данной работы впервые была показана положительная корреляция между согласованностью наборов информативных генов экспрессионных классификаторов на функциональном уровне и качеством предсказания, классификаторов. 3) Впервые было показано, что вырожденность экспрессионных классификаторов» - это явление функционально обусловленное. 4) Впервые было показано явление бимодальности экспрессионного профиля гена для рака молочной'железы, 5) Был предложен- новый» подход к кластеризации, базирующийся на явлении бимодальности экспрессионного профиля-гена, который может стать основой для определения всех подтипов рака молочной железы.

Практическое значение. Экспрессионные классификаторы используются в различных практических областях. Диагностика заболеваний - является одним из самых важных приложений экспрессионных классификаторов. Несмотря на это в последние годы доверие к экспрессионным классификаторам, как потенциальным диагностикумам, заметно^ снизилось. Проект МАС>С II ставил перед собой цель оценить

13 качество экспрессионных классификаторов. Результатом проекта является вывод о их высоком качестве, как с точки зрения статистических параметров, так и с точки зрений исследованных в представленной работе функциональных параметров экспрессионных классификаторов. Это дает основание для более широкого по сравнению с настоящим применения экспрессионных классификаторов в диагностике.

Экспрессионные классификаторы решают задачу дифференцировки известных подтипов болезней, тем не менее, для целей диагностики задача поиска подтипов заболевания является еще более актуальной. Так, актуальной проблемой является определение всех подтипов такого гетерогенного заболевания, как рак молочной железы. Предполагают, что термин "рак молочной железы" объединяет несколько различных болезней, с различными причинами возникновения, ходом заболеваний и прогнозами, и для каждой болезни необходима специфическая терапия. Чтобы более эффективно лечить пациентов с раком молочной железы необходимо иметь возможность диагностировать разные подтипы рака молочной железы. В настоящий момент не существует полной классификации рака молочной железы. В данной работе разработан подход к кластеризации, способный стать основой для создания такой классификации.

Заключение Диссертация по теме "Генетика", Бессарабова, Марина Олеговна

выводы

1. Функциональный анализ 262 экспрессионных классификаторов проекта МАС^С 1Г показал, что наборы информативных генов классификаторов, построенных различными методами, обладают функциональной основой, согласующейся с описываемым признаком. Этот факт представляется не случайным и указывает на то, что методы классификации обладают свойством направленно отбирать гены, характеризующие функциональную основу анализируемого признака.

2. Вырожденность экспрессионных классификаторов функционально обусловлена.

3. Существует положительная корреляция между качеством предсказания, экспрессионных классификаторов и связью информативных генов экспрессионных классификаторов с функциональной основой описываемого признака.

4. Для выборки экспрессионных данных по раку молочной железы мы описали свойство некоторых генов* формировать два различных- уровня» экспрессии, свойство бимодальности экспрессионного. профиля-гена.

5. Мы разработали метод определения степени бимодальности. экспрессионного профиля гена на основе расчета^ статистики т, сходной с 1:-статистикой, которая оценивает относительную разницу между средними значениями сигналов для двух пиков распределения.

6. Мы- определили 866 генов» с бимодальным экспрессионным профилем для выборки экспрессионных данных по раку молочной железы и. показали, что бимодальность — это свойство экспрессии гена специфичное по отношению к физиологическому состоянию, и не зависящее от типа платформы, экспериментальных условий и состава когорты пациентов.

7. Был разработан подход к кластеризации, основанный на функционально обусловленном бимодальном характере экспрессионного профиля генов, который может быть использован для полной кластеризации выборки пациентов с раком молочной железы.

Библиография Диссертация по биологии, кандидата биологических наук, Бессарабова, Марина Олеговна, Москва

1. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. М., Наука. 1979, 448.

2. Воронцов К.В. Машинное обучение, курс лекций, 2010. www.MachineLearning.ru.

3. Albert R. Scale-free networks in cell biology. J Cell Sci. 2005; 118(21): 4947-4957.

4. Altman D.G., Bland J.M. Diagnostic tests. 1: Sensitivity and specificity. BMJ. 1994; 308(6943): 1552.

5. Ashburner M., Ball C.A., Blake J.A., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 2000; 25(1): 25-29.

6. Ball C.A., Sherlock G., Parkinson H., et al. Microarray Gene Expression Data (MGED) Society.Standards for microarray data. Science. 2002; 298(5593): 539.

7. Barabasi A. L., Albert R. Emergence of scaling in random networks. Science. 1999; 286(5439): 509-512.

8. Barabasi A.L., Oltvai Z.N. Network biology: understanding the cell's functional organization. Nat. Rev. Genet. 2004; 5: 101-113.

9. Barbacioru C., Wang Y., Canales R., et al. Effect of various normalization methods on Applied Biosystems expression array system data. BMC Bioinformatics. 2006; 7: 533.

10. Barthelmes J., Ebeling C., Chang A., et al. BRENDA, AMENDA and FRENDA: the enzyme information system in 2007. Nucleic Acids Res. 2007; 35: 511-514.

11. Bayani J., Squire J. A. Comparative genomic hybridization. Curr Protoc Cell Biol. 2005; 22: 22-26.

12. Bizzi, A., Ceriani, L., Gerundino, M., et al. Adriamycin causes hyperlipemia as a consequence of nephrotoxicity. Toxicol. Lett. 1983; 18(3): 291-300.

13. Blaschke C., Andrade M. A., Ouzounis C., et al. Automatic extraction« of biological* information from scientific text: protein-protein interactions. Proc Int Conf Intell Syst Mol Biol. 1999; 60-67.

14. Bonnefoi H., Potti A., Delorenzi M., et al. Validation of gene signatures that predict the response of breast cancer to neoadjuvant chemotherapy: a substudy of the EORTC 10994/BIG 00-01 clinical trial. Lancet Oncol. 2007; 8(12): 1071-1078.

15. Boutet E., Lieberherr D., Tognolli M., et al. UniProtKB/Swiss-Prot. Methods Mol Biol. 2007; 406: 89-112.

16. Boutros P.C., Lau S.K., Pintilie M., et al. Prognostic gene signatures for non-small-cell lung cancer. Proc Natl Acad Sei USA. 2009; 106: 2824-2828.

17. Cohen J. A coefficient of agreement for nominal scales. Educational and Psychological Measurement. 1960; 20(1): 37-46.

18. Chuang H.Y., Lee E., Liu Y.T., et al. Network-based classification of breast cancer metastasis. Mol Syst Biol. 2007; 3: 140.

19. Daraselia N., Yuryev A., Egorov S., et al. Extracting human protein interactions from MEDLINE using a full-sentence parser. Bioinformatics. 2004; 20(5): 604-611.

20. Deane C.M., Salwinski t., Xenarios I., et al. Protein interactions: two methods for assessment of the reliability of high throughput observations. Mol Cell Proteomics. 2002; 1(5): 349-356.

21. Dezso Z., Nikolsky Y., Miller J., et al. Identifying disease-specific genes based on their topological significance in protein networks. BMC Systems Biology. 2009; 3: 36 .

22. Dadoun C., Raguenez-Viotte, G. Celiptium-induced nephrotoxicity and lipid peroxidation in rat renal cortex. Cancer Chemother.Pharmacol. 1990; 27(3): 178186.

23. Desmedt C., Piette F., Loi S.,,et al. Strong time dependence of the 76-gene prognostic signature for node-negative breast cancer patients in the TRANSBIG multicenter independent validation series. Clin Cancer Res. 2007; 13: 3207-3214.

24. Dettmer K., Aronov P. A.Hammock B. D. Mass spectrometry-based metabolomics. Mass Spectrom Rev. 2007; 26(1): 51-78.

25. Doniger S.W., Salomonis N., Dahlquist K.D., et al. MAPPFinder: using gene ontology and GenMAPP to create a global gene-expression profile from microarray data. Genome Biol. 2003; 4: 7.

26. Dozmorov I., Knowlton N., Tang Y., et al. Hypervariable genes-experimental error or hidden dynamics. Nucleic Acids Res. 2004; 32(19): 147.

27. Draghici S., Khatri P., Martins R.P., et al. Global functional profiling of gene expression. Genomics. 2003; 81: 98-104.

28. Ein-Dor L., Kela I., Getz G., et al. Outcome signature genes in breast cancer: is there a unique set? Bioinformatics. 2005; 21: 171-178.

29. Ein-Dor L., Zuk O., Domany E. Thousands of samples are needed to generate a robust gene list for predicting outcome in cancer. Proc Natl Acad Sci USA. 2006; 103: 5923-5928.

30. Ekins S., Nikolsky Y., Bugrim A., et al. Pathway mapping tools for analysis of high content data: Methods Mol Biol; 2007; 356: 319-350.

31. Eun J.W., Ryu S.Y., Noh J.Hi, et al. Discriminating the molecular basis of hepatotoxicity using the large-scale characteristic molecular signatures of toxicants by expression profiling analysis. Toxicology. 2008; 249(2-3): 176-183.

32. Fan C., Oh D.S., Wessels L., et al. Concordance among gene-expression-based predictors for breast cancer. N Engl J Med. 2006; 355: 560-569.

33. Fisher R.A. The correlation between relatives under the supposition of Mendelian inheritance. Trans R Soc Edinburgh. 1918; 52: 399-433.

34. Gavin A.C., Bosche M., Krause R., et al. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature. 2002; 415(6868): 141-147.

35. Ge H., Liu Z., Church G. M., et al. Correlation between transcriptome and interactome mapping data from Saccharomyces cerevisiae. Nat Genet. 2001; 29(4): 482-486.

36. Gershon D: Microarray technology: an array of opportunities. Nature. 2002; 416: 885-891.

37. Goh K.I., Cusick M.E., Valle D., et al. The human disease network. Proc Natl Acad Sci USA. 2007; 104: 8685-8690.

38. Gomase V.S., Kale K.V., Tagore S., et al. Proteomics: technologies for protein analysis. Curr Drug Metab. 2008; 9(3): 213-220.

39. Gonczi M., Papp H., Biro T., et al. Effect of protein kinase C on transmembrane calcium fluxes in HaCaT keratinocytes. Exp Dermatol. 2002; 11: 25-33.

40. Hakes L., Pinney J., Robertson D., et al. Protein-protein interaction networks and biology—what's the connection? Nature Biotechnology. 2008; 26(1): 69-72.

41. Han J.D., Bertin N., Hao T., Goldberg D.S., et al. Evidence for dynamically organized modularity in the yeast protein-protein interaction network. Nature. 2004; 430(6995): 88-93.

42. Hanahan D., Weinberg R.A. The hallmarks of cancer. Cell. 2000; 100: 5770.

43. Hartwell L.H., Hopfield J.J., Leibler S., et al. From molecular to modular cell biology. Nature. 1999; 402(676lSuppl): 47-52.

44. Hess K.R., Anderson K., Symmans W.F., et al. Pharmacogenomic predictor of sensitivity to preoperative chemotherapy with paclitaxel and fluorouracil, doxorubicin, and cyclophosphamide in breast cancer. J Clin Oncol. 20 06; 24: 4236-4244.

45. Hu Z., Fan C., Oh D.S., et al. The molecular portraits of breast tumors are conserved across microarray platforms. BMC Genomics. 2006; 7: 96.

46. Huang da W., Sherman B.T., Tan Q., et al. The DAVID Gene Functional Classification Tool: a novel biological module-centric algorithm to functionally analyze large gene lists. Genome Biol. 2007; 8(9): 183.

47. Huang Q., Jin X., Gaillard E.T., et al. Gene expression profiling reveals multiple toxicity endpoints induced by hepatotoxicants. Mutat. Res. 2004; 549: 147-168.

48. Huang Y., Penchala S., Pham A.N., et al. Genetic variations and gene expression of transporters in drug disposition and response. Expert Opin Drug Metab Toxicol. 2008; 4(3): 237-254.

49. Ideker T., Thorsson V., Ranish J. A., et al. Integrated genomic and proteomic analyses of a systematically perturbed metabolic network. Science. 2001; 292(5518): 929-934.

50. Ideker T., Sharan R. Protein networks in disease. Genome Res. 2008; 18: 644-652t

51. Irizarry R.A., Warren D., Spencer F., et al. Multiple-laboratory comparison of microarray platforms. Nat Methods. 2005; 2: 345-350.

52. Ito T., Chiba T., Ozawa R., et al. A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proc Natl Acad Sci USA. 2001; 98(8): 4569-4574.

53. Ivshina A.V., George J., Senko O., et al. Genetic reclassification of histologic grade delineates new clinical subtypes of breast cancer. Cancer Res. 2006; 66: 10292-10301.

54. Jensen L.J., Kuhn M., Stark M., et al. STRING 8—a global view on proteins and their functional interactions in 630 organisms. Nucleic Acids Res. 2009; 37: 412-416.

55. Kanda N., Watanabe S. Prolactin Enhances Interferon-y-Induced Production of CXC Ligand 9 (CXCL9), CXCL10, and CXCL11 in Human Keratinocytes. Endocrinology. 2007; 148: 2317-2325.

56. Kauraniemi P., Kuukasjarvi T., Sauter G., et al. Amplification of a 280-kilobase core region at the ERBB2 locus leads to activation of two hypothetical proteins in breast cancer. Am J Pathol. 2003; 163: 1979-1984.

57. Kemmeren P., van Berkum N.L., Vilo J., et al. Protein interaction verification and functional annotation by integrated analysis of genome-scale data. Mol Cell. 2002; 9(5): 1133-1143.x142

58. Kerrien S., Alam-Faruque Y., Aranda B., et al. IntAct—open source resource for molecular interaction data. Nucleic Acids Res. 2007; 35: 561-565.

59. Khalil I.G., Hill C. Systems biology for cancer. Curr Opin Oncol. 2005; 17(1): 44-48.

60. Kiechle F.L., Zhang X., Holland-Staley C.A. The -omics era and its impact. Arch Pathol Lab Med. 2004; 128(12): 1337-1345.

61. Kitano H. Computational systems biology. Nature. 2002; 420(6912): 206210.

62. Kim S.Y., Kim Y.S. A gene sets approach for identifying prognostic gene signatures for outcome prediction. BMC Genomics. 2008; 9: 177.

63. Lacroix M. Significance, detection and markers of disseminated breast cancer cells. Endocr Relat Cancer. 2006; 13: 1033-1067.

64. Lamy P., Andersen C. L., Wikman F. P., et al. Genotyping and annotation of Affymetrix SNP arrays. Nucleic Acids Res. 2006; 34(14): 100.

65. Levi M., Cronin R.E. Early selective effects of gentamicinon renal brush-border membrane Na-Pi cotransport and Na-Hexchange. Am. J. Physiol. 1990; 258(5 Pt 2): 1379-1387.

66. Liu C.C., Hu J., Kalakrishnan M., et al. Integrative disease classification based on cross-platform microarray data. BMC Bioinformatics. 2009; 10(Suppl 1): 25.

67. Mao S., Wang C., Dong G. Evaluation of inter-laboratory and cross-platform concordance of DNA microarrays through discriminating genes and classifier transferability. J Bioinform Comput Biol. 2009; 7(1): 157-173.

68. MAQC Consortium, Shi E., Reid E.H:, et alt The MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements. NatBiotechnol. 2006; 24: 1151-1161.

69. McCall M:N., Irizarry R.A. Consolidated strategy for the analysis of microarray spike-in data. Nucleic Acids Res. 2008; 36(17): 108.

70. Mrowka R., Patzak A., Herzel H. Is there a bias in proteome research?

71. Genome research. 2001; 11(12): 1971-1973.

72. Mullins M., Perreard L., Quackenbush J.F., et al. Agreement in breast cancer classification between microarray and quantitative reverse transcription PCR from fresh-frozen and formalin-fixed, paraffin-embedded tissues. Clin Chem. 2007; 53: 1273-1279.

73. Murphy D. Gene expression studies using microarrays: principles, problems, and prospects. Adv Physiol Educ. 2002; 26(1-4): 256-270.

74. Murtagh F. Multidimensional Clustering Algorithms. Physica-Verlag: WienWürzburg. 1985; V.4.

75. Natsoulis G., El Ghaoui L., Lanckriet G.R., et al. Classification of a large microarray data set: algorithm comparison and analysis of drug signatures. Genome Res. 2005; 15(5): 724-736.

76. Natsoulis G., Pearson C.I., Gollub J., et al. The liver pharmacological and xenobiotic gene response repertoire. Mol Syst Biol. 2008; 4: 175

77. Nikolsky Y., Ekins S., Nikolskaya T., et al. A novel method for generation of signature networks as biomarkers from complex high throughput data. Toxicol Lett. V. 2005; 158: 20-29

78. Nikolsky Y., Kirillov E., Serebryiskaya T., et al. Sequential clustering of breast cancers using bimodal gene expression. Proceed AACR Ann Meeting. 2007; 141.

79. Nikolsky Y., Sviridov E., Yao J., et al. Genome-wide functional synergy between amplified and mutated genes in human breast cancer. Cancer Res. 2008; 68: 9532-9540

80. Nikolsky Y., Kirillov E., Zuev R., et al. Functional analysis of OMICs data and small molecule compounds in an integrated "knowledge-based" platform. Methods Mol Biol. 2009; 563: 177-196.

81. Oh D.S., Troester M.A., Usary J., et al. Estrogen-regulated genes predict survival in hormone receptor-positive breast cancers. J Clin Oncol. 2006; 24: 1656-1664.

82. Pagel P., Kovac S., Oesterheld M., et al. The MIPS mammalian proteinprotein interaction database. Bioinformatics. 2005; 21(6): 832-834.

83. Paik S., Shak S., Tang G., et al. A multigene assay to predict recurrence of tamoxifen-treated, node-negative breast cancer. N Engl J Med. 2004; 351: 28172826.

84. Pavlidis P., Lewis D.P., Noble W.S. Exploring gene expression data with class scores. Pac Symp Biocomput. 2002; 474-485

85. Pavlidis P., Qin J., Arango V., et al. Using the gene ontology for microarray data mining: a comparison of methods and, application to age effects in human prefrontal cortex. Neurochem Res 2004; 29: 1213-1222.

86. Pawitan Y., Bjohle J., Amler L., et al. Gene expression profiling spares early breast cancer patients from» adjuvant therapy: derived and validated' in two population-based cohorts. Breast Cancer Res. 2005; 7: 953-964.

87. Peluso I., Pallone F., Monteleone G. Interleukin-12 and Thl immune response in Crohn's disease: pathogenetic relevance and therapeutic implication. World J Gastroenterol. 2006; 12(35): 5606-5610.

88. Peri S., Navarro J.D., Amanchy R., et al. Development of human protein reference database as an initial platform for approaching systems biology in humans. Genome Res. 2003; 13: 2363-2371.

89. Perou C.M., S0rlie T., Eisen M.B., et al. Molecular portraits of human breast tumours. Nature. 2000; 406: 747-752.

90. Perren T.J. c-erbB-2 oncogene as a prognostic marker in breast cancer. Br J Cancer. 1991; 63:328-332.

91. Popovici V., Chen W., Gallas B.G., et al. Effect of training-sample size and classification difficulty on the accuracy of genomic predictors. Breast Cancer Res. 2010; 12(1): 5.

92. Querfeld U. Disturbances of lipid metabolism in children with chronic renal failure. Pediatr. Nephrol. 1993; 7(6): 749-757.

93. Robertson G., Hirst M., Bainbridge M., et al. Genomewide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nature methods. 2007; 4: 651-657.

94. Rual J.F., Venkatesan K., Hao T., et al. Towards a proteome-scale map.of the human protein-protein interaction network. Nature. 2005; 437: 1173-1178.

95. Sauro H.M., Bergmann F.T. Standards and ontologies in computational systems biology. Essays Biochem. 2008; 45: 211-222.

96. Salwinski L., Miller C.S., Smith A.J., et al. The Database of Interacting Proteins: 2004 update. Nucleic Acids Res. 2004; 32: 449-451.

97. Sanchez C., Lachaize C., Janody F., et al. Grasping at molecular interactions and genetic networks in Drosophila melanogaster using FlyNets, an Internet database. Nucleic Acids Res. 1999; 27(1): 89-94.

98. Schena M., Shalon D., Davis R.W., et al. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science. 1995; 270(5235): 467-470.

99. Schweitzer B., Predki P., Snyder M. Microarrays to characterize protein interactions on a whole-proteome scale. Proteomics. 2003; 3(11): 2190-2199.

100. Selkov E. Jr, Grechkin Y., Mikhailova N., et al. MPW: the Metabolic Pathways Database. Nucleic Acids Res. 1998; 26(1): 43-45.

101. Seo J., Hoffman E. Probe set algorithms: Is there a rational best bet? BMC Bioinformatics. 2006; 7: 395.

102. Serkova N., Klawitter J., Niemann C. U. Organ-specific response to inhibition of mitochondrial metabolism by cyclosporine in the rat. Transpl. Int. 2003; 16(10): 748-755.

103. Shalon D., Smith S J., Brown P.O. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization. Genome Res. 1996; 6(7): 639-645.

104. Shen R., Chinnaiyan A.M., Ghosh D. Pathway analysis reveals functional convergence of gene expression profiles in breast cancer. BMC Med Genomics. 2008; 1:28.

105. Shi L., Jones W.D., Jensen R.V., et al. The balance of reproducibility, sensitivity, and specificity of lists of differentially expressed genes in microarray studies. BMC Bioinformatics 2008; 9(Suppl 9): 10.

106. Shi L., Campbell G., Jones W.D., W., et al. The Micro Array Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models. Nat. Biotechnol. 2010; 28(8): 827-838.

107. Shi W., Bessarabova M., Dosymbekov D;, et al. Functional analysis of multiple genomic signatures demonstrates that classification algorithms choose phenotype-related genes. The Pharmacogen. J. 2010; 10(4): 310-323.

108. Siegel S., Castellan N.J. Nonparametric statistics for the behavioral sciences. McGraw-Hill Book Company, 1998.

109. S0rlie T., Pérou C.M., Tibshirani R., et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc. Natl. Acad. Sci. USA. 2001'; 98: 10869-10874.

110. Sorlie T., Tibshirani R., Parker J., et al. Repeated observation of breast tumor subtypes in independent gene expression data sets. Proc. Natl. Acad. Sci. USA. 2003; 100: 8418-8423.

111. Stanton J.L., Green D.P. Meta-analysis of gene expression ins mouse preimplantation embryo development. Mol HumReprod 2001; 7: 545-552.

112. Stelzl U., Worm U., Lalowski M., et al. A human protein-protein interaction network: a resource for annotating the proteome. Cell. 2005; 122: 957-968.

113. Subramanian A., Tamayo P., Mootha V.K., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc. Natl. Acad. Sci. USA. 2005; 102: 15545-15550.

114. Tang T., François N., Glatigny A., et al. Expression ratio evaluation in two-colour microarray experiments is significantly improved by correcting image misalignment. Bioinformatics. 2007; 23(20): 2686-2691.

115. Teschendorff A.E., Naderi A., Barbosa-Morais N.L., et al. PACK: Profile Analysis using Clustering and Kurtosis to find molecular classifiers in cancer. Bioinformatics. 2006; 22(18): 2269^-2275

116. Tian L., Greenberg S.A., Kong S.W., et al. Discovering statistically significant pathways in expression profiling studies. Proc. Natl. Acad. Sci. USA. 2005; 102: 13544-13549

117. Tilford C.A., Siemers N.O. Gene Set Enrichment Analysis. Methods. Mol*. Biol. 2009; 563: 99-121.

118. Troester M.A., Hoadley K.A., Parker J.S., et al. Prediction of toxicant-specific gene expression signatures after chemotherapeutic treatment of breast cell lines. Environ. Health. Perspect. 2004; 112(16): 1607-1613.

119. Wang Y.N., Chang W.C. Induction of disease-associated keratin 16 gene expression by epidermal growth factor is regulated through cooperation of transcription factors Spl and c-Jun. J Biol Chem. 2003; 278: 45848-45857.

120. Wang Y., Klijn J.G., Zhang Y., et al. Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer. Lancet: 2005; 365: 671-679.

121. Ward J.H. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. 1963; 58(301): 236-244.

122. Wei Z., Li H. A Markov random field model for network-based analysis of genomic data: Bioinformatics 2007; 23: 1537-1544.

123. Weigelt B., Hu Z., He X., et al. Molecular portraits and 70-gene prognosis signature are preserved throughout the metastatic process of breast cancer. Cancer Res. 2005;65:9155-9158.

124. Westergaard M., Henningsen J., Johansen C., et al. Expression and localization of peroxisome proliferator-activated receptors and nuclear factor kappaB in normal and lesional psoriatic skin. J Invest Dermatol. 2003; 121: 1104— 1117.

125. Willis R.C., Hogue C.W. Searching, viewing, and visualizing data in the Biomolecular Interaction Network Database (BIND). Gurr Protoc Bioinformatics. 2006; 8: 8.9.

126. Wirapati P., Sotiriou C., Kunkel S., et al. Meta-analysis of gene expression profiles in breast cancer: toward a unified understanding of breast cancer subtyping and prognosis signatures. Breast Cancer Res. 2008; 10: 65.

127. Wood L.D., Parsons D.W., Jones S., et al. The genomic landscapes of human breast and colorectal cancers. Science. 2007; 318(5853): 1108-11013'.

128. Yao Y., Richman L., Morehouse C., et al. Type I interferon: potential therapeutic target for psoriasis? PLoS ONE. 2008; 3: 2737.

129. Yu H., Greenbaum D., Xin Lu H., et al. Genomic analysis of essentiality within protein networks. Trends Genet. 2004; 20(6): 227-231.

130. Zhang C., Li H.R., Fan J.B., et al. Profiling alternatively spliced mRNA isoforms for prostate cancer classification. BMC Bioinformatics. 2006; 7: 202.

131. Zhao H.Y., Yue P.Y., Fang K.T. Identification of differentially expressed genes with multivariate outlier analysis. J. Biopharm: Stat. 2004; 14(3): 629-646.

132. Zhao K.W., Li D., Zhao Q., et al. Interferon-alpha-induced expression of phospholipid scramblase 1 through STAT1 requires the sequential activation of protein kinase Cdelta and JNK. The Journal of biological chemistry 2005; 280: 42707—42714.