Бесплатный автореферат и диссертация по биологии на тему
Интегрированный анализ различных типов данных постгеномных исследований для идентификации ключевых путей мультигенных заболеваний
ВАК РФ 03.02.07, Генетика

Автореферат диссертации по теме "Интегрированный анализ различных типов данных постгеномных исследований для идентификации ключевых путей мультигенных заболеваний"

На правах рукописи

Ишкин Александр Александрович

ИНТЕГРИРОВАННЫЙ АНАЛИЗ РАЗЛИЧНЫХ ТИПОВ ДАННЫХ ПОСТГЕНОМНЫХ ИССЛЕДОВАНИЙ ДЛЯ ИДЕНТИФИКАЦИИ КЛЮЧЕВЫХ ПУТЕЙ МУЛЬТИГЕННЫХ ЗАБОЛЕВАНИЙ

03.02.07-Генетика 03.01.09 - Математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

1 7 МАР 2011

Москва-2011

4840663

Работа выполнена в лаборатории системной биологии Учреждения Российской академии наук Институт общей генетики им. Н. И.

Вавилова РАН

Научный руководитель:

кандидат биологических Никольская Татьяна Анатольевна наук Учреждение Российской академии наук

Институт общей генетики им. Н. И. Вавилова РАН, г. Москва

Официальные оппоненты:

доктор биологических наук, Миронов Андрей Александрович профессор Московский государственный университет

им. М.В. Ломоносова, г. Москва кандидат биологических Артамонова Ирена Игоревна наук Учреждение Российской академии наук

Институт общей генетики им. Н. И. Вавилова РАН, г. Москва Ведущее учреждение: ФГУП Государственный научно-

исследовательский институт генетики и селекции промышленных микроорганизмов (ГосНИИгенетика), г. Москва

Защита состоится 3/Мортъ 2011 г. в «часов на заседании диссертационного совета Д 002.214.01 при Учреждении Российской академии наук Институт общей генетики им. Н. И. Вавилова РАН по адресу: 119991, ГСП-1, Москва, ул. Губкина, 3, факс: 8 (499) 132-89-62, Е-таП: aspirantura@vigg.ru. адрес в Интернете: www.vigg.rii.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт общей генетики им. Н. И. Вавилова РАН

Автореферат разослан «24» ¿ре/^/аЛз 2011 г.

Ученый секретарь Диссертационного совета кандидат биологических наук I Т. А. Синелыцикова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

Технологические достижения последних десятилетий в молекулярной биологии дали исследователям возможность проводить широкомасштабные исследования динамики биологических систем. Возник целый ряд так называемых постгеномных методов, позволяющих одномоментно получить информацию практически обо всех компонентах клетки на том или ином уровне ее организации. В частности, возникли методы высокопроизводительного измерения экспрессии генов, концентрации белков или метаболитов, генотипирования полиморфизмов и обнаружения мутаций в геноме. Особенно большую популярность приобрел полногеномный анализ экспрессии генов при помощи микрочипов, в силу своей доступности и относительной технической простоты. Объем данных такого рода, полученных для различных организмов и фенотипов, растет огромными темпами, и в настоящее время перед исследователями стоит проблема эффективной обработки всех этих массивов информации. Трудности состоят как в технологических особенностях применяемых методов, так и в огромном размере получаемых массивов данных. К примеру, из оценок экспрессии для десятков тысяч генов в десятках биологических образцов необходимо получить биологически осмысленную гипотезу, объясняющую какой-либо аспект изучаемого явления.

Еще одна проблема состоит в трудности сопоставления и интеграции различных типов молекулярных данных. К примеру, достаточно сложен совместный анализ мутаций в геноме и изменений экспрессии генов, вызываемых этими мутациями.

Одной из важных целей анализа данных постгеномных технологий является исследование мультифакторных заболеваний человека. В этой области остается немало нерешенных вопросов и проблем. Постгеномные технологии используются для исследования молекулярных механизмов заболеваний, поиска мишеней для терапевтического вмешательства, классификации подтипов заболеваний, которые по-разному реагируют на терапию, поиска биологических маркеров заболеваний.

Системная биология - это подход, направленный на изучение структуры и динамики целостных систем, образуемых при взаимодействии различных биомолекул. Разнообразные взаимодействия между молекулами

- белок-белковые связи, регуляторные связи факторов транскрипции с промоторами генов, метаболические превращения молекул - составляют сложную глобальную сеть. Любые постгеномные данные (микрочиповые, протеомные данные, данные о геномных перестройках) можно анализировать в контексте этой сети, выявляя пути и биологические процессы, задействованные в исследуемых явлениях. Помимо этого, системный подход эффективен для идентификации механизмов тех или иных явлений, поиска причинных факторов, приводящих к наблюдаемому явлению.

Системная биология - развивающаяся отрасль вычислительной биологии. Актуальна проблема создания новых системно-биологических подходов анализа постгеномных данных. Особенно интересными представляются методы интегрированного анализа различных типов данных, поскольку различные данные можно совместно анализировать в контексте глобальной биологической сети, исследуя функциональные сходства и зависимости между различными массивами. Представленная работа посвящена разработке и оценке методов сравнительного анализа данных постгеномных технологий при помощи биологических сетей.

Цель исследования:

Разработка и применение подходов для эффективного совместного анализа различных типов постгеномных данных с помощью методов системной биологии. Оценка применимости используемых подходов на различных массивах данных, полученных для разнообразных мультигенных заболеваний.

Исходя из целей исследования, были поставлены следующие задачи:

1. Найти общие и уникальные биологические пути, характерные для псориаза и болезни Крона с помощью анализа данных экспрессии генов;

2. Определить метод, дающий наилучшие результаты для классификации различных подтипов рака грудной железы на основании экспрессионных данных;

3. Реконструировать ключевые пути сигнальной трансдукции, характеризующие патологию псориаза на основании экспрессионных и протеомных данных;

4. Проанализировать набор существующих подходов для интегрированного анализа постгеномных данных.

Научная новизна. Впервые были показаны общие молекулярные пути, схожим образом действующие при двух аутоиммунных заболеваниях

- псориазе и болезни Крона. Впервые была показана функциональная схожесть между различными фенотипическими подтипами рака молочной железы. Впервые был произведен интегрированный анализ данных по полногеномной экспрессии генов и экспрессии белков при помощи методов анализа топологии биологических сетей. Был найден ряд сигнальных путей, вовлеченных в патогенез псориаза и ранее не изучавшихся в связи с этой болезнью. Разработан метод поиска ключевых сигнальных путей в биологической сети путем интегрированного анализа различных массивов данных, полученных при помощи постгеномных технологий.

Научно-практнческое значение. Постгеномные технологии широко используются в исследованиях механизмов различных мультифакторных заболеваний человека. Среди основных применений данных, полученных при помощи этих технологий - выявление молекулярных механизмов заболеваний, диагностика различных подтипов заболеваний, поиск биомаркеров и потенциальных мишеней для лекарственного вмешательства.

Несмотря на большое количество разнообразных данных о молекулярных изменениях при мультифакторных заболеваниях, о причинах и механизмах многих из них до сих пор известно недостаточно. Не в последнюю очередь это связано с тем, что постгеномные технологии генерируют данные со значительным уровнем шума. Вследствие этого совместный анализ различных массивов данных достаточно затруднен. Помимо этого, достаточно трудно сравнивать данные, которые относятся к различным уровням клеточной организации (например, данные по экспрессии генов и по вариабельности генома).

Для успешных исследований в этой области необходимы новые методы совместного анализа различных массивов молекулярно-биологических данных. Эти методы позволят использовать для исследований массивы данных, уже накопленные на сегодняшний день в открытых базах данных, а также производить интегрированный анализ данных, полученных при помощи различных постгеномных технологий.

В данной работе рассмотрены различные подходы сравнительного анализа различных массивов данных постгеномных технологий в контексте биологической сети. Предложен метод поиска биологических путей, значимых для исследуемого заболевания, при совместном анализе нескольких массивов данных. Этот метод может быть полезен для

идентификации молекулярных механизмов заболеваний, поиска потенциальных белков-мишеней для лекарств, объяснения токсических эффектов лекарств и ядов.

Апробация. Результаты данной диссертационной работы были представлены на межлабораторном научном семинаре Отдела геномики Института общей генетики им. Н. И. Вавилова РАН.

Декларация личного участия автора. В диссертационной работе использованы материалы, полученные лично автором, а также совместно с коллегами из лабораторий функциональной геномики ИОГен РАН (Э.С. Прирузян, С.А. Брускин). Функциональный анализ экспрессионных классификаторов для рака молочной железы проводился автором совместно с Мариной Бессарабовой. Автор самостоятельно проводил сбор и обработку выборки экспрессионных данных по псориазу и болезни Крона, идентифицировал множества генов с изменениями экспрессии при псориазе и болезни Крона. Автор также самостоятельно производил все виды анализа биологических сетей, а также идентифицировал важные сигнальных пути.

Суммарное личное участие автора составило семьдесят процентов.

Публикации

По результатам исследований было опубликовано 3 статьи в реферируемых научных журналах, включенных в перечень научных журналов и изданий, рекомендованных ВАК Минобрнауки России. В статьях полностью изложен материал диссертации.

Объем и структура работы

Диссертационная работа состоит из введения, обзора литературы, описания материалов и методов, изложения результатов и их обсуждения, заключения, выводов, списка литературы и приложения. Работа изложена на 157 страницах машинописного текста, иллюстрирована 26 рисунками и содержит 11 таблиц.

Список цитируемой литературы, приведенный в конце диссертации, содержит 269 источников, из них 267 на иностранных языках.

ГЛАВА I. ОБЗОР ЛИТЕРАТУРЫ

В главе описаны наиболее распространенные постгеномные технологии и описаны основные сложности, связанные с анализом получаемых при их помощи данных. Рассмотрены существующие методы

системной биологии, различные способы представления биологических систем в виде сетей взаимодействий между молекулами и существующие системно-биологические методы анализа постгеномных данных. Подробно описываются типы, способы создания и свойства биологических сетей, а также типы функциональных онтологий.

ГЛАВА II. МАТЕРИАЛЫ И МЕТОДЫ

2.1. Материалы

2.1.1. Микрочиповые данные по экспрессии генов

Для анализа в данной работе использовались массивы данных из открытой базы данных микрочиповых экспериментов GEO (http://www.ncbi.nlm.nih.gov/geo/). Экспрессионные данные по псориазу содержались в массиве с идентификационным номером GSE2327, данные по болезни Крона - в массиве GSE1710. Для сравнения с протеомными данными использовался недавно опубликованный массив данных по экспрессии генов при псориазе с идентификационным номером GSE14905.

Из каждого массива данных брали две выборки экспрессионных профилей, соответствующих пораженной и соответствующей здоровой ткани, экспрессии в кишечной ткани здоровых индивидуумов.

Подготовка данных и включала в себя этапы отсева зондов с плохо детектируемым сигналом и нормализации оставшихся данных. Сигналы были нормализованы на медиану значений всех сигналов для соответствующего эксперимента для того, чтобы сделать эксперименты сравнимыми друг с другом.

2.1.2. Протеомные данные

Список белков, экспрессия которых значимо повышена в псориатических бляшках, был получен в ходе сравнительного анализа пораженной и непораженной ткани при помощи двумерного электрофореза. Идентификацию белков с повышенной концентрацией в псориазных бляшках проводили в Протеомном центре Института биомедицинской химии РАМН.

2.3. Множества генов для классификации подтипов рака молочной железы

Для проекта MAQC-II (L. Shi et al. 2010) были взяты 230 экспрессионных профилей, полученных при помощи микрочипов Affymetrix на образцах рака грудной железы от I до III стадий. Данные

были предоставлены M.D. Anderson Cancer Center (MDACC) Университета Техаса.

Классификаторы на основе геномных данных строились для трех важных фенотипических признаков:

• Статус рецептора эстрогена (ER) - положительный или отрицательный;

• Ответ на химиотерапию (pCR) - полный или неполный;

• Ответ на химиотерапию в подгруппе ER-отрицательных опухолей (pCR + ER-).

Каждый классификатор представляет собой набор информативных объектов (в данном случае, микрочиповых зондов) и правило для отнесения тестируемого экспрессионного профиля к тому или иному классу на основе профилей сигналов этих объектов.

Методики отбора объектов для классификации ранжируют все гены в массиве данных по некоей метрике, отражающей достоверность различия выборочных средних между группами образцов, для различения которых создается классификатор. Были использованы 5 различных способов отбора объектов.

Множества генов, сигналы которых оказались информативными для классификации того или иного фенотипического признака (всего 15 списков генов), были использованы для создания классификаторов и оценки их эффективности. Эти же множества использовались для функционального анализа в данной работе.

2.2. Методы

2.2.1 Анализ дифференциальной экспрессии

Для оценки амплитуды изменения экспрессии зондов использовалось отношение усредненных по группе сигналов, взятое с соответствующим знаком (average fold change) Поиск генов с достоверными различиями в экспрессии между двумя группами образцов проводился с помощью Т-теста Уэлча (Welch 1947). В случае использования парных выборок (пары образцов пораженной и непораженной кожи от одних и тех же пациентов) использовалась парная версия теста. Для контролирования уровня ошибок 1 рода при определении генов с дифференциальной экспрессией использовался алгоритм FDR (Benjamini & Hochberg 1995).

2.2.2 Функциональный анализ

Все этапы функционального анализа проводились в программном пакете MetaCore (Yuri Nikolsky et al. 2009). В основе MetaCore лежит база

данных парных направленных взаимодействий биологических объектов (белков, РНК, метаболитов). Взаимодействия в этой базе аннотируются по научной литературе вручную и являются высоко достоверными. Весь комплекс взаимодействий образует глобальную биологическую сеть, в контексте которой и происходит анализ множеств генов или белков.

Кроме взаимодействий MetaCore содержит функциональные аннотации объектов сети при помощи онтологий биологических процессов и каскадов.

Информация, содержащаяся в базе данных MetaCore, использовалась для проведения следующих алгоритмов функционального анализа:

2.2.3. Анализ обогащения. Этот анализ предназначен для выявления биологических процессов, ассоциированных с изучаемым множеством объектов. Уровень значимости обогащения для каждого биологического процесса определялся с помощью значения p-value, рассчитанного по формуле гипергеометрического распределения. К р-значениям для всех объектов применяется поправка на множественные тесты (FDR), аналогичная описанной для анализа дифференциальной экспрессии. В работе использовались биологические процессы GO (Consortium 2006) и три онтологии, включенные в MetaCore:

• "Canonical Pathway Maps" - карты сигнальных и метаболических каскадов, структура которых хорошо изучена;

• "Diseases" - известные биомаркеры различных заболеваний;

• "GeneGo process networks" - 123 сети, представляющие основные клеточные процессы и построенные вручную по литературным данным.

2.2.4. Анализ сетей. Для выделения биологически осмысленных подсетей, обогащенных объектами из интересующих нас списков генов, применялись несколько алгоритмов. Входными данными для каждого из этих алгоритмов служит интересующее исследователя множество объектов (например, генов), а также биологическая сеть MetaCore. Все они создают список подсетей, отсортированных по значимости ассоциации с исходным множеством объектов. Значимость определяется аналогично анализу обогащения. Алгоритмы различаются по тому, какой аспект регуляции объектов из исследуемого множества они пытаются реконструировать.

Алгоритм "Analyze networks" создает набор из частично пересекающихся (имеющих общие узлы) сетей, обогащенных объектами из исходного списка и удобных для визуального анализа.

Алгоритм "Analyze networks (Receptors)" пытается найти регуляторные пути, которые предположительно являются активными при исследуемом состоянии (прослеживает сигнальные пути для которых и начало, и конец находятся в исследуемом множестве объектов).

Алгоритм "Transcriptional regulation" предназначен для отыскания наиболее важных транскрипционных факторов, регулирующих экспрессию генов из исследуемого множества.

2.2.5 Анализ интерактома

Этот термин обозначает алгоритмы поиска объектов сети, важных для регуляции изучаемого списка генов (интерактом - совокупность взаимодействий множества объектов сети). В данной работе использовались два алгоритма такого типа.

Поиск объектов с повышенной связностью. Цель этого алгоритма -выявить объекты сети, число связей которых с объектами из исследуемого множества выше, чем ожидаемое. Для оценки значимости повышенной связности используется гипергеометрическое распределение, схожим образом с анализом обогащения. Объекты с р-значением < 0,05 можно рассматривать как важные непосредственные регуляторы исследуемого множества.

Алгоритм «скрытых узлов». Этот алгоритм выявляет объекты, число кратчайших путей от которых до объектов из исходного списка выше, чем ожидаемое (Dezso et al. 2009). В общем, он схож с описанным выше алгоритмом поиска объектов, избыточно связанных с исходным списком, но вместо непосредственных взаимодействий используются кратчайшие пути. В данной работе этот алгоритм применялся только для исследования транскрипционной регуляции, поэтому в расчет брались только кратчайшие пути, которые заканчиваются транскрипционным фактором и содержат четное число взаимодействий с отрицательным эффектом (чтобы в целом путь имел активирующее действие). Объекты с р-значением < 0,05 можно рассматривать как топологически важные удаленные регуляторы, действующие на исследуемое множество через регуляторные каскады.

2.2.6. Дополнительные алгоритмы

Парная согласованность наборов информативных генов на уровне генного состава и на функциональном уровне рассчитывалась с помощью каппа-статистики (Byrt et al. 1993) в статистическом программном пакете R (Team 2008).

ГЛАВА III. РЕЗУЛЬТАТЫ

3.1. Изменения экспрессии генов при псориазе и болезни Крона

Первой задачей была идентификация молекулярных путей, схожим образом измененных на уровне экспрессии при двух аутоиммунных синдромах - псориазе и болезни Крона. Наличие общих молекулярных путей может предполагать общие молекулярные механизмы патогенеза и общие подходы к терапии. Наиболее простой подход к такой задаче -анализ путей, в которых задействованы гены, экспрессия которых изменена при обеих болезнях.

В работе использовались два массива микрочиповых данных из открытой базы данных GEO. Сравнение двух болезней было решено производить по множествам генов, экспрессия которых статистически значимо меняется (порог по р-значению с поправкой на множественные тесты 0,1) без учета абсолютных изменений в экспрессии. Этот подход диктуется тем, что при таком нем множества дифференциально экспрессированных генов для обеих болезней имеют достаточный размер, а также статистически значимы.

Сравниваемые списки статистически значимых генов составили 425 генов для псориаза и 2033 гена для болезни Крона соответственно. Размер пересечения этих листов оказался равным 49, что является значимым пересечением (р-значение 4,94-10"2 для теста Фишера; за полную выборку генов принято число генов, общее для обоих исследуемых микрочипов -9017, списки генов с измененной экспрессией также были сокращены до подмножеств генов, присутствующих в обоих массивах данных).

Анализ обогащения показал, что гены с измененной при обеих болезнях экспрессией участвуют в процессах, связанных с воспалением, регуляцией иммунного ответа и клеточного цикла.

При более подробном анализе процессов, относящихся к воспалению и иммунному ответу, стало ясно, что часть исследуемых генов находится на малом расстоянии друг от друга и согласованно повышает свою экспрессию. При помощи анализа подсетей (алгоритм "Analyze network" в программном пакете MetaCore) мы идентифицировали подсеть, состоящую из этих объектов и ведущих к активации сигнальных путей воспаления (Рисунок 1).

Видно, что три из найденных генов - JUNB (один из членов семейства транскрипционных факторов АР-1), STAT-3 и IRF9 (на картинке включен в состав группы транскрипционных факторов ISGF3) занимают

центральное место в регуляторных путях, активирующих множество генов, участвующих в воспалительных процессах. Примечательно, что экспрессия всех трех транскрипционных факторов согласованно повышается, хотя вообще для транскрипционных факторов такая ситуация нехарактерна.

IFN^eta IFN-^amma 1?2 |7б t, 11?17 11^3 TNFflpha

<' ^ у' ^

f > ^ HL-17 receptor , ' .

V , V. У '

' IFN-gamma receptor у IL-6 receptor IL-23 receptor y Y Y

/tetareceptor , «Precepto? • V IL-12receptor TNF"R1 TNF-R2

IFN-alpha/beta receptor c preceptor _ il-izreceptor .....p

ь % o ' i; • <"•■ 4

° C 4» ' ' "'" V ' O'' -

Erk (MAPK1/3) O <t' Tp.

JAK3. . JAK1 JAK2 TPL2(MAP3K8)

..<> ■ "TRAF2

O

■■ А С-гС/EBPalpha

C/EBPbeta r.

V" . A........" Г21

NF-kB „ .CalgranUlin В

"" ; c °c \ CaSinA

r-r, 4 ° SERRNB9 .[¡Л ° Granzyme

1Д, - \ " CathepsInC

IFI44 , • ° о ' . „ ^

\ ' , MMP-1 - 0 ^ Granzyme К

" MMP-9 MMP-2 " < Granzyme A

Leukocyte elastase

Рисунок 1. Подсеть, насыщенная генами, статистически значимо меняющими экспрессию при обоих исследуемых заболеваниях. Общие гены для псориаза и болезни Крона отмечены оранжевыми рамками. Зеленым помечены регуляторные каскады, вероятнее всего, приводящие к активации транскрипционных факторов; голубым отмечены взаимодействия, описывающие транскрипционную регуляцию генов-мишеней, могущих играть роль при воспалительном процессе.

Как показано на Рисунок 1, гены, продукты которых запускают сигнальные пути, ведущие к транскрипционным факторам (гены интерлейкинов и TNF-a,), не входят в общий список генов с измененной экспрессией. Тем не менее, по литературным данным, эти цитокины играют важную роль в изучаемых патологиях. Таким образом, мы можем предполагать, что пути, изображенные на Рисунок 1, активны в пораженной ткани.

Повышенная экспрессия белков семейства S100 подтверждает имеющиеся литературные данные о псориазе и болезни Крона (Y. Liu et al. n.d.; Srivastava & Kulaylat 2004).

Анализ сигнальных путей, ведущих к БТАТЗ и АР-1, выявил также альтернативные пути активации этих транскрипционных факторов. На Рисунок 2 изображены сигнальные пути, ведущие от различных ростовых факторов к БТАТЗ и ЛтВ. для нас наибольший интерес представляет путь, ведущий от рецептора РСРЯ2, экспрессия которого повышена при обеих болезнях. Можно предположить, что этот сигнальный путь задействован в обоих исследуемых заболеваниях.

Рисунок 2. Подсеть, демонстрирующая активацию ключевых транскрипционных факторов из общего листа генов через сигнальные пути ростовых факторов. Зеленым выделен регуляторный каскад, ведущий от рецептора факторов роста фибробластов к транскрипционному фактору 1ипВ; желтым - регуляторные каскады, могущие играть роль в активации 1ипВ и 8ТАТЗ, но не подтвержденные на изучаемых данных с точки зрения экспрессионных изменений.

Таким образом, показано, что анализ сетей позволяет идентифицировать общие пути, задействованные в различных патологиях, на основе экспрессионных данных, даже если сравниваемые массивы данных имеют мало общего на уровне генов.

3.2. Функциональное сравнение предикторов для различных фенотипов опухолей грудной железы

Материалом для функционального сравнения послужили 15 множеств генов, отобранных для трех классифицируемых фенотипических признаков (см. Материалы и методы). Эти множества в дальнейшем использовались для построения классификаторов. Нашей задачей в данном случае было функциональное сравнение значимых генов с целью установить, какой из методов отбора объектов для классификации предпочтительнее и как получаемые множества генов функционально связаны с классифицируемым признаком.

Для функциональной оценки сходств и различий между фенотипами и методами отбора мы использовали списки канонических карт Ме1аСоге, обогащенных (на уровне значимости 0,1) генами из исследуемых множеств.

Для общей оценки согласия между множествами, полученными в пределах одного классифицируемого признака или одного метода отбора объектов, использовалась каппа-статистика. Выяснилось, что множества как генов, так и соответствующих им карт, полученные различными методами для одного и того же классифицируемого фенотипического признака, достаточно схожи между собой (Таблица 1). В то же время, множества для разных признаков, полученные одним и тем же методом отбора, согласуются между собой плохо на обоих уровнях. Результаты для уровня генов и для уровня обогащенных ими канонических карт практически не отличаются.

Таблица 1. Согласие (каппа-статистика) между различными методами отбора объектов в пределах фенотипа и между различными фенотипическими признаками в пределах одного метода отбора.

Разные методы отбора объектов в пределах одного фенотипического признака Разные признаки в пределах одного метода отбора объектов

Фенотип Гены Карты Метод Гены Карты

Статус эстрогенового рецептора (ЕЛ) 0.541 0.573 Р81 0.3 0.29

Чувствительность к химиотерапии (рСЯ) 0.544 0.572 РБ2 0.299 0.274

Чувствительность к химиотерапии среди опухолей ЕЯ- (рСЯ ЕЯ-) 0.593 0.532 РБЗ 0.291 0.278

РБ4 0.295 0.291

РБ5 0.272 0.282

Кроме общего согласия между множествами генов или карт в пределах групп, соответствующих фенотипическому признаку или методу отбора объектов, также были построены матрицы попарного согласия между всеми 15 множествами на уровне генов и карт. Результаты представлены на Рисунок 3.

Согласие ни уровне генов

Согласие на уровне карт

Спектр каппа-статистики

Обочначсния групп

■ ЕР □ рсиек:-а рсн

Рисунок 3. Попарное согласие между списками генов, выбранных методами подбора объектов для классификации, и канонических карт МйаСоге, значимо обогащенных этими генами. Множества генов/карт, соответствующие разным фенотипам, отмечены различными цветами.

Как видно, на уровне карт наблюдается функциональное сходство между списками генов, отобранных для классификации признаков ЕЯ и рСЛ. На уровне генов это сходство не очевидно. Попарные сравнения также подтверждают, что в пределах одного признака разные методы отбора объектов генерируют схожие множества значимых генов.

Также мы рассматривали топологические характеристики объектов сети, соответствующих выбранным генам (степень - число взаимодействий объекта, и полустепени захода и исхода, показывающие, сколько входящих и исходящих связей имеет объект). Оказалось, что сходство между признаками ЕЯ и рСЯ не ограничивается согласием по картам (Рисунок 4). Видно, что средняя степень мало варьирует в пределах одного фенотипа; при этом как общая степень, так и полустепень исхода для всех множеств значимых объектов признаков ЕЯ и рСЯ значительно превышает соответствующие усредненные значения по всей базе данных Ме1;аСоге. Это может указывать на то, что во все множества значимых

генов для этих фенотипов попадают гены, продукты которых являются ключевыми регуляторами сигнальных путей.

Срадн«* 1на>мнн*

Р22 РЗЗ РЯ

рзг гэз рм

Рисунок 4. Топологические характеристики множеств объектов, отобранных для различных фенотипов (обозначены цветом). По оси X -метод отбора генов. А) Средняя степень; Б) Средняя полустепень захода; В) Средняя полустепень исхода.

Если исследовать гены, значимые для классификации и статуса эстрогенового рецептора, и чувствительности к хемотерапии, окажется, что достаточно большая часть из белков, которые эти гены кодируют, связаны прямыми функциональными связями (Рисунок 5).

11.-11 гесерюг М1.РН СЯ£В1

ТРРЗ X

ARLЗ ../ СУР2В6

СагЬотё апИус1га5е XII

\

г

ШР4

о

Л

ТРР1 г*

НАС-2

(писТеаг) °

САТА-3

„о"

0

/

1

1СР-1 гесерюг о

X

4

УАУ-З

\

* <1 2 \ САВТ

Таи (МАРТ) ОМ/$С12

(теггвгапе) Ргоде^гопе гесерюг

Рисунок 5. Связная компонента сети, построенная из белков, гены которых были отобраны в качестве значимых для классификации фенотипов ЕЙ. и рСЯ. В связную сеть вошли 17 белков из примерно 50, гены которых были общими для 2х фенотипов.

Полученная сеть представляет собой модуль, состоящий из эстрогенового рецептора и генов, находящихся под его непосредственным

транскрипционным контролем, что совпадает с известной причинои различий между опухолями с разным статусом ER.

Таким образом, можно сделать следующие выводы:

Функциональный анализ и, в частности, анализ сетей позволяет делать выводы о биологической природе различий между классифицируемыми образцами.

Повышенная чувствительность к химиотерапии может быть обусловлена, в частности, теми же различиями в активности ER, которые обуславливают разделение опухолей на ER+ и ER-.

3.3. Сравнение изменений транскриптома и протеома при псориазе

3.3.1. Белки с повышенной экспрессией в бляшках

Исходными данными для анализа послужил список белков, концентрация которых значительно повышена в пораженной кожей больных псориазом. (Таблица 2). Некоторые из этих белков ранее уже упоминались в литературе как сверхэкспрессированные в псориатических бляшках (Leigh et al. 1995; Madsen et al. 1991; Vorum et al. 1996; Takeda et al. 2002).

Таблица 2. Список белков с повышенной концентрацией в псориатических бляшках

Название белка

Ген

Изменение

экспрессии

10.944

10.944

10.944

4.242

SERPINB3 11.667

Кератин 17 KRT17

Кератин 14 KRT14

Кератин 16 KRT16

Изоформа 2 фьюжн-белка SCCA2/SCCA1 SERPINB4 Антиген плоскоклеточной карциномы; антиген SCC Энолаза-1

Супероксиддисмутаза [Мп] Галекгин-7 (Gal-7) (HKL-14) (PI7) Белок S100-A9 (S100 кальций-связывающий белок А9)

Белок S100-A7 (S100 кальций-связывающий белок А7) (псориазин)

Первым шагом в анализе этого списка белков была попытка идентифицировать регулирующие их сигнальные пути. Для этого в программном пакете MetaCore был применен алгоритм поиска активных регуляторных путей "Analyze network (receptors)" (см. Материалы и

EN01 SOD2 LGALS7B

S100A9 S100A7

2.175 2 6

Только в бляшках Только в бляшках

методы). Как выяснилось, гены, кодирующие сверхэкспрессированные белки, регулируются небольшим числом общих транскрипционных факторов, в том числе белки из комплексов семейств NF-kB and АР-1; факторы STAT1, STAT3, с-Мус и SP1 (Рисунок 6). Более того, регуляторные каскады, ведущие к активации этих транскрипционных факторов, инициируются белком S100A9 (Calgranulin В), экспрессия которого повышена, через его рецептор RAGE (Ghavami et al. 2008) и киназы сигнальной трансдукции (JAK2, ERK, р38 МАРК). Получившаяся подсеть также включает в себя петлю положительной обратной связи, поскольку экспрессия S100A9 регулируется факторами из семейства NF-kB (Schreiber et al. 2006). Топология этой «протеомной» сети косвенно подтверждается рядом транскриптомных исследований, показавших повышенную экспрессию найденных транскрипционных факторов в псориатических бляшках (Tsuruta 2009; Sano et al. 2008; Ghoreschi et al. 2003; Piruzian et al. 2009; Gandarillas & Watt 1997; Arnold & Watt 2001).

Л

p53

f 1ÍF1 ta

) КегантБ Kefalirti

2

GaTéctfn-7

Рисунок 6. Подсеть, демонстрирующая транскрипционную регуляцию генов, концентрация продуктов которых повышена в псориатических бляшках. Связываясь с рецептором RAGE, этот белок может запускать сигнальные каскады, приводящие к увеличению экспрессии всех остальных маркеров. Красные кружки возле иконок объектов означают повышенную экспрессию на уровне мРНК. Белки с повышенной экспрессией отмечены оранжевыми рамками.

Рецептор RAGE играет главную регулирующую роль в «протеомной» сети, поскольку все каскады, начинающиеся с него, соответствуют наблюдаемой картине изменений экспрессии белков. Этот белок экспрессируется и в кератиноцитах, и в лейкоцитах, хотя в норме его экспрессия невысока (Lohwasser et al. 2006). Он активно исследуется как потенциальная мишень для лекарственной терапии при многих воспалительных заболеваниях (Santilli et al. 2009). Таким образом, можно выдвинуть гипотезу, что RAGE играет существенную роль и в патогенезе псориаза.

3.3.2. Гены с повышенной экспрессией

В качестве транскриптомных данных использовался недавно опубликованный массив (Y. Yao et al. 2008), включающий в себя экспрессионные профили здоровой и пораженной кожи 33 больных псориазом, полученные при помощи микрочипов Affymetrix. Изначально авторы нашли порядка 1300 зондов с повышенной экспрессией в псориазных бляшках по сравнению с нормальной кожей тех же пациентов. В данном анализе применялись более строгие статистические пороги достоверности. Сравнивались 2 выборки образцов пораженной кожи и соответствующих им образцов здоровой кожи тех же людей, по 28 образцов в выборке. Зонд считался значимо сверхэкспрессированным, если усредненное изменение сигнала превышало 2.5, и р-значение с поправкой на контроль доли ложноположительных исходов было не больше 0,01. Эти пороги прошел 451 зонд. Гены, кодирующие 7 из 10 белков, идентифицированных в протеомном исследовании, были также сверхэкспрессированы на уровне мРНК. Экспрессия энолазы-1, кератина-14 и галектина-7 не была повышена значимо. В целом, результаты транскриптомного анализа достаточно хорошо соответствуют результатам нашего протеомного исследования.

3.3.2. Общая транскрипционная регуляция

Мы провели сравнительный функциональный анализ протеомных маркеров и множества генов, повышенная экспрессия которых в бляшках была выявлена при помощи микрочипов. Это было сделано для того, чтобы подтвердить найденные сигнальные пути на независимой выборке данных, а также оценить пригодность методов функционального анализа для сравнения различных типов постгеномных данных. В качестве транскриптомных данных использовался недавно опубликованный массив (Y. Yao et al. 2008), включающий в себя экспрессионные профили

здоровой и пораженной кожи 28 больных псориазом, полученные при помощи микрочипов Айутейчх. Ген считался значимо сверхэкспрессированным, если усредненное изменение сигнала соответствующего зонда превышало 2,5, и р-значение с поправкой на множественные тесты было не больше 0,01. Эти пороги прошел 451 ген. Гены, кодирующие 7 из 10 белков, идентифицированных в протеомном исследовании, были также сверхэкспрессированы на уровне мРНК (см. Рисунок 1).

Таким образом, результаты транскриптомного анализа достаточно хорошо соответствуют результатам нашего протеомного исследования.

Чтобы выявить функциональные взаимосвязи между исследуемыми множествами белков и генов и найти общие мотивы в их регуляции, мы применили методы исследования интерактома. В первую очередь, мы определили множества наиболее значимых транскрипционных факторов при помощи двух методов интерактомного анализа - поиска избыточно связанных объектов (У. Мкокку е1 а1. 2008) и метода «скрытых вершин» (гокап БегБо е1 а1. 2009) (см. Материалы и методы). На основе результатов обоих алгоритмов были вычислены 20 наиболее «влиятельных» транскрипционных факторов для каждого из двух множеств объектов (слияние результатов двух интерактомных методов производилось при помощи алгоритма взвешенной ранговой агрегации (Тайапа ЬНкоЬкауа & а1. 2009)). 11 транскрипционных факторов оказались значимыми для обоих типов данных. Что немаловажно, их список (Рисунок 7) похож на список факторов, регулирующих экспрессию протеомных маркеров на Рисунок 6. Таким образом, на уровне транскрипционной регуляции обнаружено сходство между транскриптомными и протеомными данными.

Рисунок 7. Транскрипционные факторы, топологически значимые для регуляции обоих сравниваемых множеств объектов с повышенной экспрессией при псориазе (451 генов и 10 белков). Кружок у иконки объекта означает, что данный транскрипционный фактор сверхэкспрессирован в пораженной ткани (на уровне мРНК).

ЫР-кВ1 (р105)

Р1е1А (р65 ЫР-кВ гиЬипЩ

с-Мус

ЭТАП

с-Ие! (№-кВ гиЬигЛ) /ГЪ

А ж

мтсл УТТ\

вТАТЗ

А А

1, чтдтв

А

Т-Ье1

3.3.4. Идентификация важных рецепторов

Следующим шагом было использование алгоритма «скрытых вершин» для выявления наиболее топологически значимых рецепторов, которые потенциально способны запускать максимально возможный наблюдаемый транскрипционный ответ через сигнальные каскады. В общем, было идентифицировано 226 мембранных рецепторов, значимо вовлеченных в регуляцию множества дифференциально экспрессированных генов (р-значение < 0,05; с поправкой на множественные тесты). Топологическая значимость сама по себе не не является достаточным свидетельством реального участия белка в регуляторных событиях в пораженной ткани. По этой причине, список рецепторов был отфильтрован по изменению экспрессии. Мы отобрали только те топологически значимые рецепторы, мРНК которых были сверхэкспрессированы в пораженной коже более, чем в 2,5 раза, или имели лиганд, экспрессия мРНК которого была повышена более, чем в 2.5 раза. Основанием для такой фильтрации служит то соображение, что каскады, начинающиеся с рецепторы или лиганда с повышенной экспрессией, с большей вероятностью могут быть реально активированы in vivo. Дополнительным критерием призанния рецептора «значимым» для болезнь-специфичной регуляции было наличие хотя бы одного линейного сигнального каскада до транскрипционного фактора из описанной выше группы «значимых прямых регуляторов».

Все вышеописанные процедуры фильтрации прошли 44 рецептора. Из них, 24 были сверхэкспрессированы на уровне мРНК; для 23 нашлись сверхэкспрессированные лиганды (Рисунок 8), и в трех случаях оба элемента в паре лиганд-рецептор были сверхэкспрессированы в псориатических бляшках.

Из 44 рецепторов, найденных при помощи топологического анализа, 21 уже упоминался ранее в литературе в связи с псориазом - либо как биомаркеры, либо в связи с молекулярными механизмами патологии. Остальные 23 рецептора никогда не упоминались в литературе в связи с псориазом и не исследовались при изучении других воспалительных заболеваний.

Таким образом, регуляторные пути, задействованные при псориазе, могут быть более разнообразны и многочисленны, чем предполагалось ранее.

ЗЛ^Р

Т Т

¡с1-2 ссГзи

0^5

ЗЕ|р

ТМРА1Р1

0070(^^7) М1Р-?-Ье1а

1 Л1 №

к* 1й»

С027{ТМРРЭР7) ССЙ5

т

Я131

Т

уоп W¡llebrand *ас!ог

(ЗВН1 РЭОЫ *

Е-5е1ес11п л

_ НЬА-В ЕрЬпп-В

вЙО-1 ОРГО-2 ОМ-* ЭР V V _ Т

1 и г ^

# , кту ЕоМп-ВТёсе^

4*-

ЕрЬпп-А'~гесер1ог 2

х Др

опс!|п 1

А1

'уО V' Рс ерэИопИ^цртта

1№ Ш" V®' , ЕрИг|п-В~гёсерЮг 2 V

СХСН4 11_8НВ С045 ^ Рс ерзйоп И

ам-сэр гесер1ог

Т т

11-15 1*2

ТЬготЬоБропсйп 1

\РОЕ

а1рИа-иЬе1а-2 ¡тедпп

Т т

И-4 11.-13 X „ 7|(гопесГ|п

' ' \ и

■у® у у У»

1ТаВ2 ' 4-2 герер1ог г 11_13Р|А1 АРОЕЯ2

<• I РЬАиЯ (иРАН)

" 11.-15 гесврюг ^

1ИП 1УИ и

Й Й И-2Я датта сЬЫп 1Ь4РА

У

У

^ у И-2Р. датта сЬат

■ V И--2Н Ье(а сИа^п» к

И-17 гесерЮг I < '

11.-11=11 V

И-15 гесер1ог

са.2 Ф

Т Т Т М|Р-1*а1рИа

и-8 ато-1 нВ1_ оа.5 ^

ч г 11 л п-^а-зи

Ъ у У Уш' ¥„

11_8ЯА СйЗб С044 ССЯЗ ССЯ!

АтрЫгедиНп

1.ТВ

Г-Ц

Щ

т>

1В-Еар

1Л1МТ5А Са|дгапи11П А нВ-ЕОР

Тар-а1рЬа _Г_, Д Г А1 /

Гш X V У *

РГО4 НОТг ТЬН4 ЯЛвЕ ЕбРИ

1_аси>1етп Аро-2ЦТК|Р8Р10) РВЕР

¡1_

¥

у 0Й5(ТМРН5Р 10В) у

А2М гесерйй |п5и1т*сер1ог

V

1НР2 (Медайп)

Рисунок 8. Начальные шаги регуляторных каскадов, потенциально активированных при псориазе. Красные кружки возле иконок объектов означают повышенную экспрессию на уровне мРНК. Рецепторы, ранее не исследовавшиеся в связи с псориазом, отмечены желтыми рамками.

ГЛАВА IV. ОБСУЖДЕНИЕ

4.1. Сравнение различных массивов микрочиповых данных

Сравнительный анализ различных типов и массивов постгеномных данных, полученных при помощи постгеномных методов, становится все более важным инструментом исследований механизмов патогенеза полигенных заболеваний. Рост количества данных диктует необходимость появления эффективных алгоритмов интегрированного анализа различных массивов данных, способных извлечь максимум информации из уже

существующих данных. Актуальны задачи определения молекулярных механизмов заболеваний и их специфических подтипов.

Для анализа однотипных массивов данных такие методы (методы мета-анализа) существуют и широко применяются на практике (Cahan et al. 2007). Тем не менее, они имеют ряд ограничений (Ramasamy et al. 2008). Если задача исследования формулируется как «поиск сходств между изменениями экспрессии в двух различных биологических условиях», как в первой части данной работы, применение их затруднительно.

Самый простой способ сравнить такие массивы - получить множества дифференциально экспрессированных генов и проанализировать их пересечение. Для экспрессионных данных это не всегда является хорошим выходом, поскольку часто пересечение оказывается недостаточным по размеру для проведения полноценного функционального анализа. Сравнение различных множеств генов более эффективно, если оно производится на уровне более крупных функциональных единиц -биологических процессов или регуляторных каскадов. Сами множества могут пересекаться незначительно, но если изменения экспрессии при двух сравниваемых условиях обусловлены изменением активности одних и тех же процессов или регуляторных путей, топологический анализ сети позволяет их выявить.

4.2.Интеграция данных разных постгеномных технологий. Для сопоставления массивов данных разной природы (таких, например, как транскриптомные и протеомные данные) было разработано несколько вычислительных методов (Hack 2004; Le Naour et al. 2001; Steiling et al. 2009; Conway & Kinter 2005; Di Pietro et al. 2009). Тем не менее, в этой области еще много нерешенных проблем, осложняющих анализ (Mijalski et al. 2005). Как следствие, количественные транскриптомные и протеомные массивы данных обычно показывают лишь небольшую положительную корреляцию (Mijalski et al. 2005; Сох et al. 2005)., хотя, как считается, эти два уровня организации клетки дополняют друг друга с точки зрения информации об исследуемых процессах (Y. R Chen et al. 2006; Changqing Zhao et al. 2009; Zheng et al. 2005). Ключевые вопросы биологической причинности и функциональных следствий отдельных регуляторных изменений на обоих уровнях в литературе специально не рассматривались.

Результаты, полученные в данной работе, подтверждают выводы предыдущих исследований о том, что изменения экспрессии генов и

концентрации белков при заболевании представляют собой различные части общей патологической картины. Методы, использующие топологию сети, способны идентифицировать и ранжировать по достоверности регуляторные пути, ответственные за изменения в экспрессии белков и генов; при этом имеющаяся информация о молекулярных изменениях в системе используется наиболее полно. При этом, в общем, не имеет значения, какие именно типы данных используются в сравнении и насколько пересекаются множества интересующих исследователя объектов (Иекег & БЬагап 2008; Опш^ е1 а1. 2007). В данной работе продемонстрировано, что методы, использующие топологию сети, способны идентифицировать и ранжировать по достоверности регуляторные пути, ответственные за изменения в экспрессии белков и генов.

4.3. Алгоритм интегративного анализа данных

Исходя из результатов данной работы, оптимальный механизм реконструкции общих путей при сравнении различных массивов постгеномных данных, можно описать следующим образом (Рисунок 9):

• Поиск топологически значимых прямых регуляторов объектов из исследуемых множеств и определение регуляторов, общих для всех исследуемых множеств;

• Поиск топологически значимых непрямых регуляторов объектов из исследуемых множеств и определение регуляторов, общих для всех исследуемых множеств;

• Отбор регуляторов, входящих в некое интересующее нас множество. Например, в случае анализа экспрессионных данных наиболее интересны прямые регуляторы - транскрипционные факторы. В случае поиска мишеней для лекарств непрямые имеет смысл рассматривать только рецепторы в качестве непрямых регуляторов исследуемых множеств.

• Определение путей в сети, ведущих от непрямых регуляторов к прямым.

Определение непосредственных регуляторов осуществляется методом поиска объектов с избыточной связностью; непрямых регуляторов -методом «скрытых вершин» (см. Методы). Вышеприведенная схема достаточно общая и должна подвергаться модификации в зависимости от типа исследуемых данных и целей исследования. В принципе такой подход применим для исследования любых данных, которые можно рассматривать

как ответ системы на некий стимул на уровне изменения свойств ряда ее элементов.

На выход алгоритм должен выдавать ранжированный по суммарной топологической значимости список непрямых регуляторов (и идущих от них регуляторных путей).

У Множество

о а \ 1 О О о возможных непрямых регуляторов

Объект

У Регулятор 1 У Регулятор 2 У Регулятор 3 У Регулятор 4 Y Регулятор 5 У Регулятор 6

Вес

123

117

85

64

59

33,5

0

1

о о

Топологически значимый непрямой регулятор

Топологически значимый прямой регулятор

Объект из

исследуемого

множества

Рисунок 9. Схема определения топологически значимых непрямых регуляторов для одного множества исследуемых объектов (эффекторов).

ВЫВОДЫ

1. В результате сравнительного анализа изменений экспрессии генов при псориазе и болезни Крона, найдены общие и уникальные сигнальные пути, участвующие в этих патологиях;

2. Определен метод, дающий наилучшие результаты при классификации различных подтипов рака молочной железы на основании экспрессионных данных;

3. Обнаружен ряд путей сигнальной трансдукции, характеризующих патологию псориаза на основе экспрессионных и протеомных данных. Определен список мембранных рецепторов, которые инициируют ключевые сигнальные пути (в том числе более 20 рецепторов, ранее не исследовавшихся с связи с псориазом).

4. Проведен анализ существующих подходов для интегрированного анализа постгеномных данных. Предложен подход реконструкции путей

для различных типов постгеномных данных при помощи поиска топологически значимых регуляторов в биологической сети.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в рецензируемых журналах

1. Пирузян Э. С., Ишкин А. А., Никольская Т. А., Абдеев Р. М., Брускин С. А. Сравнительный анализ молекулярно-генетических процессов при псориазе и болезни Крона. Молекулярная биология. 2009. Том 43, №1, стр. 175-179, 2009.

2. Piruzian Е., Bruskin S., Ishkin A., Abdeev R., Moshkovskii S., Melnik S., Nikolsky Y. and Nikolskaya T. Integrated network analysis of transcriptomic and proteomic data in psoriasis. 2010. BMC Systems Biology, 4(1):41+,.

3. Popovici V., Chen W., Gallas B. G., Hatzis C., Shi W., Samuelson F. W., Nikolsky Y., Tsyganova M., Ishkin A., Nikolskaya Т., Hess K. R., Valero V., Booser D., Delorenzi M., Hortobagyi G. N., Shi L., Syramans W.F. and Pusztai L. Effect of training sample size and classification difficulty on the accuracy of genomic predictors. Breast cancer research. BCR, 12(1):R5+, January 2010.

Заказ № 151/02/2011 Подписано в печать 17.02.2011 Тираж 70 экз. Усл. п.л. 1,2

ООО "Цифровичок", тел. (495) 649-83-30 Ц^")) www.cfr.ru; e-mail:info@cfr.ru

Содержание диссертации, кандидата биологических наук, Ишкин, Александр Александрович

Список сокращений.

Введение.

1. Обзор литературы.

1.1. Постгеномные технологии.

1.2. Системная биология.

1.3. Базы данных и стандарты описания биологических взаимодействий

1.4. Функциональный анализ постгеномных данных.

2. Материалы и методы.

2.1. Массивы данных.

2.2. Анализ дифференциальной экспрессии.

2.3. Множества генов для классификации.

2.4. Функциональный анализ.

2.5. Анализ сетей.

2.6. Анализ интерактома.

2.6. Интеграция и согласованность списков.

3. Результаты и обсуждение.

3.1. Изменения экспрессии генов при псориазе и болезни Крона.

3.2. Функциональное сравнение предикторов для различных фенотипов опухолей грудной железы.

3.3. Сравнение изменений транскриптома и протеома при псориазе

4. Обсуждение.

4.1. Сравнение различных массивов микрочиповых данных.

4.2.Интеграция данных разных постгеномных технологий.

4.3. Алгоритм интегративного анализа.

Выводы.

Введение Диссертация по биологии, на тему "Интегрированный анализ различных типов данных постгеномных исследований для идентификации ключевых путей мультигенных заболеваний"

В последнее десятилетие успехи молекулярной биологии и генетики сделали возможным широкомасштабное изучение строительных блоков жизни - генов и белков [1]. После этого перед исследователями встала проблема: как использовать полученный каталог молекулярных элементов клетки для решения проблем биологии и медицины. Эта необходимость вызвала развитие новой отрасли вычислительной биологии - системной биологии [2].

Системная биология предполагает переход от исследования отдельных генов и белков к анализу структуры и динамики целостных систем, образуемых при взаимодействии различных биомолекул [3], [4]. Белки редко выполняют свои функции изолированно. Большинство клеточных процессов являются результатом совместного действия множества белков и других молекул, физически ассоциированных в комплексы или задействованных в специфичных регуляторных путях [5]. Разнообразные взаимодействия между молекулами — белок-белковые связи, регуляторные связи факторов транскрипции с промоторами генов, метаболические превращения молекул — составляют сложную глобальную систему. Зная структуру этой системы, можно исследовать ее динамические характеристики при различных условиях. Например, изменения активности или концентрации белков при некотором воздействии на клетку можно использовать для идентификации конкретных молекулярных механизмов, задействованных в реакции системы на это воздействие.

Технологические достижения последних десятилетий в молекулярной биологии дали исследователям возможность проводить широкомасштабные исследования динамики биологических систем. Возник целый ряд так называемых постгеномных методов, позволяющих одномоментно получить информацию практически обо всех компонентах системы на том или ином уровне. В частности, существуют методы высокопроизводительного измерения экспрессии генов [6], концентрации белков или метаболитов [7], генотипирования полиморфизмов и обнаружения мутаций в геноме [8]. Особенно большую популярность приобрел полногеномный анализ экспрессии генов при помощи микрочипов, в силу своей доступности и относительной технической простоты [9]. Объем данных такого рода, полученных для различных организмов и фенотипов, растет огромными темпами [10]. В настоящее время перед исследователями стоит проблема эффективного использования всех этих массивов информации. Трудности состоят как в технологических особенностях применяемых методов (многие из них генерируют данные с большим уровнем шума), так и в их обширности [11]. К примеру, из оценок экспрессии для десятков тысяч генов необходимо извлечь биологически осмысленную информацию, дающую новое знание об исследуемом явлении. Еще одна проблема состоит в трудности сопоставления и интеграции различных типов молекулярных данных.

Анализ постгеномных данных особенно необходим для прояснения молекулярных механизмов мультифакторных заболеваний [12], [13]. Самыми известными примерами таких недугов являются различные злокачественные опухоли, нейродегенеративные заболевания - болезни Альцгеймера и Паркинсона [14], [15], диабет 1 типа. Еще один широкий класс синдромов, относящихся к мультифакторным заболеваниям - аутоиммунные болезни [16]. Эти синдромы связаны с повреждениями органов и тканей собственной иммунной системой человека при отсутствии видимых причин активации иммунных клеток. К ним относятся такие болезни, как ревматоидный артрит, псориаз [17], болезнь Крона, волчанка [18] и десятки других менее распространенных синдромов. Мультифакторные заболевания широко распространены в человеческой популяции и являются одной из главных причин смертности во всем мире. Предполагается, что эти болезни развиваются на основе многочисленных факторов предрасположенности, как генетического характера, так и обусловленных внешней средой. Генетические основы и механизмы мультифакторных заболеваний, несмотря на активные исследования в этой области, изучены пока недостаточно [12]. Предполагается, что комбинированное воздействие многих генетических полиморфизмов с малым эффектом и изменений условий окружающей среды порождает стабильные изменения в нормальном функционировании регуляторных систем клеток [19].

Постгеномные технологии используются для исследования молекулярных механизмов заболеваний, поиска мишеней для терапевтического вмешательства, классификации подтипов заболеваний, которые по-разному реагируют на терапию, поиска биологических маркеров заболеваний [20], [21]. Тем не менее, в изучении и терапии мультифакторных заболеваний остается немало нерешенных вопросов и проблем. Несмотря на значительный прогресс в изучении молекулярной механики этих патологий (в первую очередь — неопластических заболеваний), причины и механизмы нарушений регуляции для большинства из них остаются неизвестными.

Системная биология предлагает необходимые принципы для продуктивного анализа механизмов мультифакторных заболеваний. Любые постгеномные данные (микрочиповые, протеомные данные, данные о геномных перестройках) можно анализировать в контексте глобальной биологической сети, выявляя пути и биологические процессы, задействованные в исследуемых явлениях [22]. Системный подход эффективен для идентификации механизмов тех или иных явлений, поиска причинных факторов, приводящих к наблюдаемому явлению.

В то же время, необходимы как усилия по созданию как можно более полных сетей биологических взаимодействий, так и новые алгоритмы системного анализа постгеномных данных в этих сетей. Особенно важным представляется создание подходов, способных легко интегрировать различные типы постгеномных данных в одной аналитической инфраструктуре, выявляя их сходства и различия на системном уровне.

Настоящая работа посвящена разработке и применению методов идентификации ключевых регуляторных путей, задействованных в мультифакторных заболеваниях, при помощи биологических сетей.

Цель работы:

Разработка и применение подходов для эффективного совместного анализа различных типов постгеномных данных с помощью методов системной биологии. Оценка применимости используемых подходов на различных массивах данных, полученных для разнообразных мультигенных заболеваний.

Задачи:

1. Найти общие и уникальные биологические пути, характерные для псориаза и болезни Крона с помощью анализа данных экспрессии генов;

2. Определить метод, дающий наилучшие результаты для классификации различных подтипов рака грудной железы на основании экспрессионных данных;

3. Реконструировать ключевые пути сигнальной трансдукции, характеризующие патологию псориаза на основании экспрессионных и протеомных данных;

4. Проанализировать набор существующих подходов для интегрированного анализа постгеномных данных.

1. ОБЗОР ЛИТЕРАТУРЫ

Заключение Диссертация по теме "Генетика", Ишкин, Александр Александрович

выводы

1. В результате сравнительного анализа изменений экспрессии генов при псориазе и болезни Крона, найдены гены со значимо измененной экспрессией в обоих исследованных массивов данных; выделены модули биологических сетей, связывающих эти гены. Найдены общие и уникальные сигнальные пути, участвующие в этих патологиях.

2. Проведено функциональное сравнение множеств информативных генов, отобранных пятью отдельными методами для трех отдельных задач классификации профилей экспрессии в раке грудной железы: классификация статуса эстрогенового рецептора в опухоли (ЕЯ), классификация повышенной чувствительности к химиотерапии (рСЯ) и классификация повышенной чувствительности к химиотерапии в ЕЯ-отрицательных опухолях. Определен метод, дающий наилучшие результаты при классификации различных подтипов рака молочной железы на основании экспрессионных данных. На уровне генов множества объектов для классификации: а) схожи между собой для разных методов отбора в пределах одного классифицируемого фенотипа; б) различаются для одного и того же метода отбора при разных фенотипах. На функциональном уровне повторены выводы для уровня генов, а также выявлено, что множества информативных генов для фенотипов ЕЯ и рСЯ функционально схожи и входят в единую подсеть с главным регулятором — рецептором эстрогена.

5. Обнаружен ряд путей сигнальной трансдукции, характеризующих патологию псориаза на основе экспрессионных и протеомных данных. Определен список мембранных рецепторов, которые инициируют важные сигнальные пути (в том числе более 20 рецепторов, ранее не исследовавшихся с связи с псориазом). Выявлено, что число путей, потенциально значимых для активации псориаз-специфического экспрессионного ответа, достаточно велико, что может указывать на причины малой эффективности лекарственной терапии этой болезни.

4. Проведен анализ существующих подходов для интегрированного анализа постгеномных данных. Предложен подход интегративного анализа различных типов постгеномных данных при помощи поиска топологически значимых регуляторов в биологической сети.

Библиография Диссертация по биологии, кандидата биологических наук, Ишкин, Александр Александрович, Москва

1. "Finishing the euchromatic sequence of the human genome," Nature, vol. 431, no. 7011, pp. 931-945, Oct. 2004.

2. M. Vidal, "A unifying view of 21st century systems biology.," FEBS letters, vol. 583, no. 24, pp. 3891-3894, Dec. 2009.

3. H. Kitano, "Systems Biology: A Brief Overview," Science, vol. 295, no. 5560, pp. 16621664, Mar. 2002.

4. H. Kitano, "Computational systems biology.," Nature, vol. 420, no. 6912, pp. 206-210, Nov. 2002.

5. L. II. Hartwell, J. J. Hopfield, S. Leibler, and A. W. Murray, "From molecular to modular cell biology.," Nature, vol. 402, no. 6761, pp. C47-C52, Dec. 1999.

6. N. H. Lee and A. I. Saeed, "Microarrays: an overview," Methods in Molecular Biology (Clifton, N.J.), vol. 353, pp. 265-300, 2007.

7. N. M. Verrills, "Clinical proteomics: present and future prospects," The Clinical Biochemist. Reviews / Australian Association of Clinical Biochemists, vol. 27, no. 2, pp. 99-116, May. 2006.

8. D. G. Wang et al., "Large-scale identification, mapping, and genotyping of single-nucleotide polymorphisms in the human genome," Science (New York, N.Y.), vol. 280, no. 5366, pp. 1077-1082, May. 1998.

9. D. Murphy, "Gene expression studies using microarrays: principles, problems, and prospects.," Advances in physiology education, vol. 26, no. 1, pp. 256-270, Dec. 2002.

10. T. Barrett et al., "NCBI GEO: mining tens of millions of expression profiles-database and tools update.," Nucleic Acids Res, vol. 35, Jan. 2007.

11. P. Cahan, F. Rovegno, D. Mooney, J. C. Newman, G. St Laurent, and T. A. McCaffrey, "Meta-analysis of microarray results: challenges, opportunities, and recommendations for standardization.," Gene, vol. 401, no. 1, pp. 12-18, Oct. 2007.

12. J. N. Hirschhorn and M. J. Daly, "Genome-wide association studies for common diseases and complex traits.," Nature reviews. Genetics, vol. 6, no. 2, pp. 95-108, Feb. 2005.

13. W. Cookson, L. Liang, G. Abecasis, M. Moffatt, and M. Lathrop, "Mapping complex disease traits with global gene expression.," Nature reviews. Genetics, vol. 10, no. 3, pp. 184—194, Mar. 2009.

14. K. Blennow, M. J. de Leon, and II. Zetterberg, "Alzheimer's disease," Lancet, vol. 368, no. 9533, pp. 387-403, Jul. 2006.

15. J. Hardy, P. Lewis, T. Revesz, A. Lees, and C. Paisan-Ruiz, "The genetics of Parkinson's syndromes: a critical review," Current Opinion in Genetics & Development, vol. 19, no. 3, pp. 254-265, Jun. 2009.

16. A. Davidson and B. Diamond, "Autoimmune diseases.," N Engl J Med, vol. 345, no. 5, pp. 340-350, Aug. 2001.

17. E. D. O. Roberson and A. M. Bowcock, "Psoriasis genetics: breaking the barrier," Trends in Genetics: TIG, vol. 26, no. 9, pp. 415-423, Sep. 2010.

18. A. Rahman and D. A. Isenberg, "Systemic lupus erythematosus," The New England Journal of Medicine, vol. 358, no. 9, pp. 929-939, Feb. 2008.

19. W. Bodmer and C. Bonilla, "Common and rare variants in multifactorial susceptibility to common diseases," Nature Genetics, vol. 40, no. 6, pp. 695-701, Jun. 2008.

20. Y. Q. Qiu, S. Zhang, X. S. Zhang, and L. Chen, "Detecting disease associated modules and prioritizing active genes based on high throughput data.," BMC bioinformatics, vol. 11, no. 1, p. 26+, 2010.

21. M. A. A. Ali and T. Sjoblom, "Molecular pathways in tumor progression: from discovery to functional understanding.," Molecular bioSystems, vol. 5, no. 9, pp. 902—908, Sep. 2009.

22. T. Ideker and R. Sharan, "Protein networks in disease.," Genome research, vol. 18, no. 4, pp. 644-652, Apr. 2008.

23. M. B. Eisen, P. T. Spellman, P. O. Brown, and D. Botstein, "Cluster analysis and display of genome-wide expression patterns," Proceedings of the National Academy of Sciences of the United States of America, vol. 95, no. 25, pp. 14863-14868, Dec. 1998.

24. H. W. Ressom, R. S. Varghese, Z. Zhang, J. Xuan, and R. Clarke, "Classification algorithms for phenotype prediction in genomics and proteomics.," Frontiers in bioscience : a journal and virtual libraiy, vol. 13, pp. 691-708, 2008.

25. T. Sorlie et al.3 "Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications," Proceedings of the National Academy of Sciences of the United States of America, vol. 98, no. 19, pp. 10869-10874, Sep. 2001.

26. B. D. Gregory and D. A. Belostotsky, "Whole-genome microarrays: applications and technical issues," Methods in Molecular Biology (Clifton, N.J.), vol. 553, pp. 39-56, 2009.

27. J. Wu, L. T. Smith, C. Plass, and T. H. Huang, "ChlP-chip comes of age for genome-wide functional analysis," Cancer Research, vol. 66, no. 14, pp. 6899-6902, Jul. 2006.

28. T. LaFramboise, "Single nucleotide polymorphism arrays: a decade of biological, computational and technological advances.," Nucleic acids research, vol. 37, no. 13, pp. 4181-4193, Jul. 2009.

29. J. M. Johnson et al., "Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays," Science (New York, N.Y.), vol. 302, no. 5653, pp. 2141-2144, Dec. 2003.

30. E. Purdom, K. M. Simpson, M. D. Robinson, J. G. Conboy, A. V. Lapuk, and T. P. Speed, "FIRMA: a method for detection of alternative splicing from exon array data," Bio informatics, vol. 24, no. 15, pp. 1707-1714, Aug. 2008.

31. H. Wang et al., "Gene structure-based splice variant deconvolution using a microarray platform," Bioinformatics (Oxford, England), vol. 19, pp. i315-322, 2003.

32. M. Tyers and M. Mann, "From genomics to proteomics," Nature, vol. 422, no. 6928, pp. 193-197, Mar. 2003.

33. R. Aebersold and D. R. Goodlett, "Mass spectrometry in proteomics," Chemical Reviews, vol. 101, no. 2, pp. 269-295, Feb. 2001.

34. M. Karas and F. Hillenkamp, "Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons," Analytical Chemistiy, vol. 60, no. 20, pp. 2299-2301, Oct. 1988.

35. J. B. Fenn, M. Mann, C. K. Meng, S. F. Wong, and C. M. Whitehouse, "Electrospray ionization for mass spectrometry of large biomolecules," Science (New York, N.Y.), vol. 246, no. 4926, pp. 64-71, Oct. 1989.

36. J. R. Yates, "Mass spectrometry and the age of the proteoine," Journal of Mass Spectrometry: JMS, vol. 33, no. 1, pp. 1-19, Jan. 1998.

37. A. Gorg, W. Weiss, and M. J. Dunn, "Current two-dimensional electrophoresis technology for proteomics," Proteomics, vol. 4, no. 12, pp. 3665-3685, Dec. 2004.

38. M. Mann and O. N. Jensen, "Proteomic analysis of post-translational modifications," Nature Biotechnology, vol. 21, no. 3, pp. 255-261, Mar. 2003.

39. A. W. Dowsey, M. J. Dunn, and G. Yang, "The role of bioinformatics in two-dimensional gel electrophoresis," Proteomics, vol. 3, no. 8, pp. 1567-1596, Aug. 2003.

40. S. P. Gygi, B. Rist, S. A. Gerber, F. Turecek, M. H. Gelb, and R. Aebersold, "Quantitative analysis of complex protein mixtures using isotope-coded affinity tags," Nature Biotechnology, vol. 17, no. 10, pp. 994-999, Oct. 1999.

41. L. V. Schneider and M. P. Hall, "Stable isotope methods for high-precision proteomics,"

42. Drug Discovery Today, vol. 10, no. 5, pp. 353-363, Mar. 2005.

43. R. Matthiesen and A. S. Carvalho, "Methods and algorithms for relative quantitative proteomics by mass spectrometry," Methods in Molecular Biology (Clifton, N.J.), vol. 593, pp. 187-204, 2010.

44. L. D. Rogers and L. J. Foster, "Phosphoproteomics—finally fulfilling the promise?," Molecular bioSysterns, vol. 5, no. 10, pp. 1122-1129, Oct. 2009.

45. L. A. Liotta et al., "Protein microarrays: meeting analytical challenges for clinical applications," Cancer Cell, vol. 3, no. 4, pp. 317-325, Apr. 2003.

46. J. Jacquemier et al., "Protein expression profiling identifies subclasses of breast cancer and predicts prognosis," Cancer Research, vol. 65, no. 3, pp. 767-779, Feb. 2005.

47. K. M. Sheehan et al., "Use of reverse phase protein microarrays and reference standard development for molecular network analysis of metastatic ovarian carcinoma," Molecular & Cellular Proteomics: MCP, vol. 4, no. 4, pp. 346-355, Apr. 2005.

48. M. L. Metzker, "Sequencing technologies — the next generation," Nature Reviews Genetics, vol. 11, no. 1, pp. 31—46, Dec. 2009.

49. C. Trapnell and S. L. Salzberg, "How to map billions of short reads onto genomes.," Nature biotechnology, vol. 27, no. 5, pp. 455-457, May. 2009.

50. J. R. Miller, S. Koren, and G. Sutton, "Assembly algorithms for next-generation sequencing data.," Genomics, vol. 95, no. 6, pp. 315—327, Jun. 2010.

51. Z. Wang, M. Gerstein, and M. Snyder, "RNA-Seq: a revolutionary tool for transcriptomics," Nature Reviews Genetics, vol. 10, no. 1, pp. 57-63, Jan. 2009.

52. J. C. Marioni, C. E. Mason, S. M. Mane, M. Stephens, and Y. Gilad, "RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays.," Genome research, vol. 18, no. 9, pp. 1509-1517, Sep. 2008.

53. P. J. Park, "ChlP-seq: advantages and challenges of a maturing technology," Nature Reviews Genetics, vol. 10, no. 10, pp. 669-680, Sep. 2009.

54. B. A. Flusberg et al., "Direct detection of DNA methylation during single-molecule, realtime sequencing," Nature Methods, vol. 7, no. 6, pp. 461-465, 2010.

55. P. J. Campbell et al., "Identification of somatically acquired rearrangements in cancer using genome-wide massively parallel paired-end sequencing," Nat Genet, vol. 40, no. 6, pp. 722729, Apr. 2008.

56. J. M. Raser and E. K. O'Shea, "Noise in Gene Expression: Origins, Consequences, and Control," Science, vol. 309, no. 5743, pp. 2010-2013, Sep. 2005.

57. Benson, Mikael, Breitling, and Rainer, "Network Theory to Understand Microarray Studies of Complex Diseases," Current Molecular Medicine, vol. 6, no. 6, pp. 695-701, Sep. 2006.

58. S. Sundaresh, S. P. Hung, G. W. Hatfield, and P. Baldi, "How noisy and replicable are DNA microarry data 1," International journal of bioinformatics research and applications, vol. 1, no. 1, pp. 31-50, 2005.

59. II. van Bakel, C. Nislow, B. J. Blencowe, and T. R. Hughes, "Most "dark matter" transcripts arc associated with known genesPLoS Biology, vol. 8, no. 5, p. el000371, May. 2010.

60. A. Brazma et al., "Minimum information about a microarray experiment (MIAME)-toward standards for microarray dataNature genetics, vol. 29, no. 4, pp. 365-371, Dec. 2001.

61. H. Parkinson et al., "ArrayExpress-a public database of microarray experiments and gene expression profiles.," Nucleic Acids Res, vol. 35, Jan. 2007.

62. A. Ramasamy, A. Mondry, C. C. Holmes, and D. G. Altman, "Key Issues in Conducting a Meta-Analysis of Gene Expression Microarray Datasets," PLoS Med, vol. 5, no. 9, p. el 84+, Sep.2008.

63. O. Larsson and R. Sandberg, "Lack of correct data format and comparability limits future integrative microarray research," Nature Biotechnology, vol. 24, no. 11, pp. 1322-1323, Nov.2006.

64. F. Hong, R. Breitling, C. W. McEntee, B. S. Wittner, J. L. Nemhauscr, and J. Chory, "RankProd: a bioconductor package for detecting differentially expressed genes in metaanalysis," Bioinformatics, vol. 22, no. 22, pp. 2825-2827, Nov. 2006.

65. P. Warnat, R. Eils, and B. Brors, "Cross-platform analysis of cancer microarray data improves gene expression based classification of phenotypes.," BMC bioinformatics, vol. 6, no. l,p. 265+, 2005.

66. M. Benito et al., "Adjustment of systematic microarray data biases," Bioinformatics (Oxford, England), vol. 20, no. 1, pp. 105-114, Jan. 2004.

67. E. S. Lander et al., "Initial sequencing and analysis of the human genome," Nature, vol. 409, no. 6822, pp. 860-921, Feb. 2001.

68. M. Pertea and S. L. Salzberg, "Between a chicken and a grape: estimating the number of human genes," Genome Biology, vol. 11, no. 5, p. 206, 2010.

69. T. Ideker, T. Galitski, and L. Hood, "A NEW APPROACH TO DECODING LIFE: Systems Biology," Annual Review of Genomics and Human Genetics, vol. 2, no. 1, pp. 343-372, 2001.

70. T. Ideker et al., "Integrated genomic and proteomic analyses of a systematically perturbed metabolic network.," Science, vol. 292, no. 5518, pp. 929-934, 2001.

71. C. H. Yeang, T. Ideker, and T. Jaakkola, "Physical network models.," Journal of computational biology : a journal of computational molecular cell biology, vol. 11, no. 2, pp. 243-262, 2004.

72. R. Albert and A. L. Barabasi, "Statistical mechanics of complex networks," Reviews of Modern Physics, vol. 74, no. 1, pp. 47-97, 2002.

73. R. Milo, S. Shen-Orr, S. Itzkovitz, N. Kashtan, D. Chklovskii, and U. Alon, "Network motifs: simple building blocks of complex networks.," Science (New York, N.Y.), vol. 298, no. 5594, pp. 824-827, Oct. 2002.

74. R. Sharan et al., "Conserved patterns of protein interaction in multiple species.," Proceedings of the National Academy of Sciences of the United States of America, vol. 102, no. 6, pp. 1974-1979, Feb. 2005.

75. H. Yu et al., "High-quality binary protein interaction map of the yeast interactome network.," Science (New York, N.Y.), vol. 322, no. 5898, pp. 104-110, Oct. 2008.

76. J. F. Rual et al., "Towards a proteome-scale map of the human protein-protein interaction network.," Nature, vol. 437, no. 7062, pp. 1173-1178, Oct. 2005.

77. M. Vidal, "Interactome modeling.," FEBS letters, vol. 579, no. 8, pp. 1834-1838, Mar. 2005.

78. M. E. Cusick, N. Klitgord, M. Vidal, and D. E. Hill, "Interactome: gateway into systems biology.," Hitman molecular genetics, vol. 14, Oct. 2005.

79. C. von Mering et al., "Comparative assessment of large-scale data sets of protein-protein interactions.," Nature, vol. 417, no. 6887, pp. 399-403, 2002.

80. P. Braun et al., "An experimentally derived confidence score for binary protein-protein interactions," Nature Methods, vol. 6, no. 1, pp. 91-97, Jan. 2009.

81. Y. Chen, S. V. Rajagopala, T. Stellberger, and P. Uetz, "Exhaustive benchmarking of the yeast two-hybrid system," Nature Methods, vol. 7, no. 9, pp. 667-668; author reply 668, Sep. 2010.

82. A. Gavin et al., "Functional organization of the yeast proteome by systematic analysis of protein complexes," Nature, vol. 415, no. 6868, pp. 141-147, Jan. 2002.

83. M. Tompa et al., "Assessing computational tools for the discovery of transcription factor binding sites," Nature Biotechnology, vol. 23, no. 1, pp. 137-144, Jan. 2005.

84. A. Beyer, S. Bandyopadhyay, and T. Ideker, "Integrating physical and genetic maps: from genomes to interaction networks.," Nature reviews. Genetics, vol. 8, no. 9, pp. 699—710, Sep. 2007.

85. N. Daraselia, A. Yuryev, S. Egorov, S. Novichkova, A. Nikitin, and I. Mazo, "Extracting human protein interactions from MEDLINE using a full-sentence parser," Bioinformatics (Oxford, England), vol. 20, no. 5, pp. 604-611, Mar. 2004.

86. M. E. Cusick et al., "Literature-curated protein interaction datasets," Nature Methods, vol. 6, no. 1, pp. 39-46, Dec. 2008.

87. L. Hakes, J. W. Pinney, D. L. Robertson, and S. C. Lovell, "Protein-protein interaction networks and biology—what's the connection?," Nature Biotechnology, vol. 26, no. 1, pp. 69-72, Jan. 2008.

88. H. Yu et al., "High-quality binary protein interaction map of the yeast interactome network," Science (New York, N.Y.), vol. 322, no. 5898, pp. 104-110, Oct. 2008.

89. A. P. Presson et al., "Integrated weighted gene co-expression network analysis with an application to chronic fatigue syndrome.," BMC systems biology, vol. 2, p. 95+, Nov. 2008.

90. H. Jeong, B. Tombor, R. Albert, Z. N. Oltvai, and A. L. Barabasi, "The large-scale organization of metabolic networks.," Nature, vol. 407, no. 6804, pp. 651-654, Oct. 2000.

91. R. Albert, "Scale-free networks in cell biology," Journal of Cell Science, vol. 118, no. 21, pp. 4947.4957, Nov. 2005.

92. Barabasi and Albert, "Emergence of scaling in random networks," Science (New York, N.Y.), vol. 286, no. 5439, pp. 509-512, Oct. 1999.

93. H. Jeong, B. Tombor, R. Albert, Z. N. Oltvai, and A. L. Barabasi, "The large-scale organization of metabolic networks.," Nature, vol. 407, no. 6804, pp. 651-654, Oct. 2000.

94. A. L. Barabasi and Z. N. Oltvai, "Network biology: understanding the cell's functional organization.," Nature reviews. Genetics, vol. 5, no. 2, pp. 101—113, Feb. 2004.

95. H. Yu, D. Greenbaum, H. Xin Lu, X. Zhu, and M. Gerstein, "Genomic analysis of essentiality within protein networks.," Trends Genet, vol. 20, no. 6, pp. 227-231, Jun. 2004.

96. L. H. Hartwell, J. J. Hopfield, S. Leibler, and A. W. Murray, "From molecular to modular cell biology," Nature, vol. 402, no. 6761, pp. C47-52, Dec. 1999.

97. J. D. Han et al., "Evidence for dynamically organized modularity in the yeast protein-protein interaction network.," Nature, vol. 430, no. 6995, pp. 88-93, Jul. 2004.

98. M. Oti, B. Snel, M. A. Huynen, and H. G. Brunner, "Predicting disease genes using proteinprotein interactions," Journal of Medical Genetics, vol. 43, no. 8, pp. 691-698, Aug. 2006.

99. F. Sams-Dodd, "Target-based drug discovery: is something wrong?," Drug Discoveiy Today, vol. 10, no. 2, pp. 139-147, Jan. 2005.

100. H. Kitano, "A robustness-based approach to systems-oriented drug design," Nature Reviews. Drug Discoveiy, vol. 6, no. 3, pp. 202-210, Mar. 2007.

101. G. R. Zimmermann, J. Lehar, and C. T. Keith, "Multi-target therapeutics: when the whole is greater than the sum of the parts," Drug Discoveiy Today, vol. 12, no. 1, pp. 34-42, Jan. 2007.

102. G. P. Gupta et al., "Mediators of vascular remodelling co-opted for sequential steps in lung metastasis," Nature, vol. 446, no. 7137, pp. 765-770, Apr. 2007.

103. Z. Dezso et al., "Identifying disease-specific genes based on their topological significance in protein networks," BMC Systems Biology, vol. 3, no. 1, p. 36+, 2009.

104. W. Hwang, A. Zhang, and M. Ramanathan, "Identification of information flow-modulating drug targets: a novel bridging paradigm for drug discovery," Clinical Pharmacology and

105. Therapeutics, vol. 84, no. 5, pp. 563-572, Nov. 2008.

106. A. A. Ptitsyn, M. M. Weil, and D. H. Thamm, "Systems biology approach to identification of biomarkers for metastatic progression in cancer," BMC Bioinformatics, vol. 9, p. S8, 2008.

107. H. Y. Chuang, E. Lee, Y. T. Liu, D. Lee, and T. Ideker, "Network-based classification of breast cancer metastasis.," Molecular systems biology, vol. 3, Oct. 2007.

108. S. Bureeva, S. Zvereva, V. Romanov, and T. Serebryiskaya, "Manual annotation of protein interactions," Methods in Molecular Biology (Clifton, N.J.), vol. 563, pp. 75-95, 2009.

109. H. Ge, A. J. Walhout, and M. Vidal, "Integrating 'omic' information: a bridge between genomics and systems biology.," Trends in genetics : TIG, vol. 19, no. 10, pp. 551-560, Oct. 2003.

110. S. Killcoyne, G. W. Carter, J. Smith, and J. Boyle, "Cytoscape: a community-based framework for network modeling.," Methods in molecular biology (Clifton, N.J.), vol. 563, pp. 219-239, 2009.

111. C. H. Yeang, H. C. Mak, S. McCuine, C. Workman, T. Jaakkola, and T. Ideker, "Validation and refinement of gene-regulatory pathways on a network of physical interactions.," Genome biology, vol. 6, no. 7, p. R62+, 2005.

112. H. Hermjakob et al., "The HUPO PSI's molecular interaction format-a community standard for the representation of protein interaction data.," Nature biotechnology, vol. 22, no. 2, pp. 177-183, Feb. 2004.

113. E. Demir et al., "The BioPAX community standard for pathway data sharing," Nature Biotechnology, vol. 28, no. 9, pp. 935-942, Sep. 2010.

114. A. Portela and M. Esteller, "Epigenetic modifications and human disease," Nature Biotechnology, vol. 28, no. 10, pp. 1057-1068, Oct. 2010.

115. M. Hucka et al., "The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models," Bioinformatics, vol. 19, no. 4, pp. 524-531, Mar. 2003.

116. G. D. Bader, M. P. Cary, and C. Sander, "Pathguide: a pathway resource list," Nucleic Acids Research, vol. 34, pp. D504-506, Jan. 2006.

117. S. Mathivanan et al., "An evaluation of human protein-protein interaction data in the public domainBMC Bioinformatics, vol. 7, no. 5, p. S19+, 2006.

118. L. Salwinski, C. S. Miller, A. J. Smith, F. K. Pettit, J. U. Bowie, and D. Eisenberg, "The Database of Interacting Proteins: 2004 update," Nucl. Acids Res., vol. 32, no. 1, pp. D449-451, Jan. 2004.

119. B. Aranda et al., "The IntAct molecular interaction database in 2010," Nucl. Acids Res., vol. 38, pp. gkp878-531, Oct. 2009.

120. A. Ceol et al., "MINT, the molecular interaction database: 2009 update.," Nucleic acids research, vol. 38, pp. D532-539, Jan. 2010.

121. B. J. Breitkreutz et al., "The BioGRID Interaction Database: 2008 update.," Nucleic acids research, vol. 36, Jan. 2008.

122. S. Peri et al., "Development of human protein reference database as an initial platform for approaching systems biology in humans.," Genome research, vol. 13, no. 10, pp. 2363-2371, Oct. 2003.

123. G. D. Bader, D. Betel, and C. W. Hogue, "BIND: the Biomolecular Interaction Network Database.," Nucleic acids research, vol. 31, no. 1, pp. 248-250, Jan. 2003.

124. G. O. Consortium, "The Gene Ontology (GO) project in 2006," Nucl. Acids Res., vol. 34, no. 1, pp. D322—326, Jan. 2006.

125. M. Kanehisa and S. Goto, "KEGG: kyoto encyclopedia of genes and genomes," Nucleic Acids Research, vol. 28, no. 1, pp. 27-30, Jan. 2000.

126. D. Croft et al., "Reactome: a database of reactions, pathways and biological processes," Nucleic Acids Research, vol. 39, pp. D691-697, Jan. 2011.

127. H. Mi, N. Guo, A. Kejariwal, and P. D. Thomas, "PANTHER version 6: protein sequence and function evolution data with expanded representation of biological pathways," Nucleic

128. Acids Research, vol. 35, pp. D247-252, Jan. 2007.

129. A. R. Pico, T. Kelder, M. P. van Iersel, K. Hanspers, B. R. Conklin, and C. Evelo, "WikiPathways: pathway editing for the people," PLoS Biology, vol. 6, no. 7, p. el84, Jul. 2008.

130. D. Soh, D. Dong, Y. Guo, and L. Wong, "Consistency, comprehensiveness, and compatibility of pathway databases," BMC Bioinformatics, vol. 11, no. 1, p. 449, Sep. 2010.

131. K. Xia, D. Dong, and J. J. Han, "IntNetDB vl.0: an integrated protein-protein interaction network database generated by a probabilistic model," BMC Bioinformatics, vol. 7, p. 508, 2006.

132. B. Turner et al., "iRefWeb: interactive analysis of consolidated protein interaction data and their supporting evidence," Database: The Journal of Biological Databases and Cnration, vol. 2010, p. baq023, 2010.

133. P. Khatri and S. Draghici, "Ontological analysis of gene expression data: current tools, limitations, and open problems," Bioinformatics (Oxford, England), vol. 21, no. 18, pp. 35873595, Sep. 2005.

134. S. Draghici et al., "A systems biology approach for pathway level analysis," Genome Research, vol. 17, no. 10, pp. 1537-1545, Oct. 2007.

135. D. W. Huang, B. T. Sherman, and R. A. Lempicki, "Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists," Nucl. Acids Res., vol. 37, no. l,pp. 1-13, Jan. 2009.

136. X. Wang, E. Dalkic, M. Wu, and C. Chan, "Gene module level analysis: identification to networks and dynamics.," Current opinion in biotechnology, vol. 19, no. 5, pp. 482—491, Oct. 2008.

137. S. E. Baranzini et al., "Pathway and network-based analysis of genome-wide association studies in multiple sclerosis," Hum. Mol. Genet., vol. 18, no. 11, pp. 2078-2090, Jun. 2009.

138. A. Keller et al., "A novel algorithm for detecting differentially regulated paths based on gene set enrichment analysis.," Bioinformatics (Oxford, England), vol. 25, no. 21, pp. 2787—2794, Nov. 2009.

139. H. Hu, "An Efficient Method to Identify Conditionally Activated Transcription Factors and their Corresponding Signal Transduction Pathway Segments," Bioinformatics and Biology Insights, vol. 3, pp. 179-187,2009.

140. Z. Tu, L. Wang, M. N. Arbeitman, T. Chen, and F. Sun, "An integrative approach for causal gene identification and gene regulatory pathway inference.," Bioinformatics, vol. 22, no. 14, pp. e489-496, Jul. 2006.

141. L. Shi et al., "The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models," Nature Biotechnology, Jul. 2010.

142. J. Stec et al., "Comparison of the predictive accuiacy of DNA array-based multigene classifiers across cDNA arrays and Affymetrix GeneChips," The Journal of Molecular Diagnostics: JMD, vol. 7, no. 3, pp. 357-367, Aug. 2005.

143. C. J. Miller, simpleaffy: Very simple high level analysis of Affymetrix data.

144. E. Piruzian et al., "Integrated network analysis of transcriptomic and proteomic data inpsoriasis," BMC Systems Biology, vol. 4, no. 1, p. 41+, 2010.

145. U. K. Laemmli, "Cleavage of structural proteins during the assembly of the head of bacteriophage T4 "Nature, vol. 227, no. 5259, pp. 680-685, Aug. 1970.

146. B. L. Welch, "The Generalization of "Student's' Problem when Several Different Population Variances are Involved," Biometrika, vol. 34, no. 1, pp. 28-35, 1947.

147. Y. Benjamini and Y. Hochberg, "Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing," Journal of the Royal Statistical Society. Series B, Methodological, vol. 57, no. 1, pp. 289-300, 1995.

148. V. Pihur, S. Datta, and S. Datta, "RankAggreg, an R package for weighted rank aggregation," BMC Bioinformatics, vol. 10, no. 1, p. 62+, 2009.

149. R. D. C. Team, R: A Language and Environment for Statistical Computing. Vienna, Austria: , 2010.

150. R. Gentleman et al., "Bioconductor: open software development for computational biology and bioinformatics," Genome Biology, vol. 5, no. 10, p. R80+, 2004.

151. T. Byrt, J. Bishop, and J. B. Carlin, "Bias, prevalence and kappa.," Journal of clinical epidemiology, vol. 46, no. 5, pp. 423^429, May. 1993.

152. A. M. Bowcock and J. G. Krueger, "Getting under the skin: the immunogenetics of psoriasis," Nature Reviews Immunology, vol. 5, no. 9, pp. 699—711, Sep. 2005.

153. Y. Liu, J. G. Krueger, and A. M. Bowcock, "Psoriasis: genetic associations and immune system changes," Genes and Immunity.

154. M. D. Srivastava and M. N. Kulaylat, "Gene expression profiles of late colonic Crohn's disease," Journal of Medicine, vol. 35, no. 1, pp. 233-255, 2004.

155. F. Andre et al., "HER2 expression and efficacy of preoperative paclitaxel/FAC chemotherapy in breast cancer," Breast Cancer Research and Treatment, vol. 108, no. 2, pp. 183-190, Mar. 2008.

156. P. Madsen et al., "Molecular cloning, occurrence, and expression of a novel partially secreted protein "psoriasin" that is highly up-regulated in psoriatic skin," The Journal of Investigative Dermatology, vol. 97, no. 4, pp. 701-712, Oct. 1991.

157. H. Vorum et al., "Expression and divalent cation binding properties of the novel chemotactic inflammatory protein psoriasin," Electrophoresis, vol. 17, no. 11, pp. 1787-1796, Nov. 1996.

158. A. Takeda et al., "Overexpression of serpin squamous cell carcinoma antigens in psoriatic skin," The Journal of Investigative Dermatology, vol. 118, no. 1, pp. 147-154, Jan. 2002.

159. P. Madsen et al., "Cloning, expression, and chromosome mapping of human galectin-7," The Journal of Biological Chemistry, vol. 270, no. 11, pp. 5823-5829, Mar. 1995.

160. S. Ghavami et al., "S100A8/A9 at low concentration promotes tumor cell growth via RAGE ligation and MAP kinase-dependent pathway.," Journal of leukocyte biology, vol. 83, no. 6, pp. 1484-1492, Jun. 2008.

161. D. Tsuruta, "NF-kappaB links keratinocytes and lymphocytes in the pathogenesis of psoriasis," Recent Patents on Inflammation & Allergy Drug Discoveiy, vol. 3, no. 1, pp. 4048, 2009.

162. S. Sano, K. S. Chan, and J. DiGiovanni, "Impact of Stat3 activation upon skin biology: a dichotomy of its role between homeostasis and diseases," Journal of Dermatological Science, vol. 50, no. 1, pp. 1-14, Apr. 2008.

163. K. Ghoreschi, U. Mrowietz, and M. Rocken, "A molecule solves psoriasis? Systemic therapies for psoriasis inducing interleukin 4 and Th2 responses," Journal of Molecular

164. Medicine (Berlin, Germany), vol. 81, no. 8, pp. 471-480, Aug. 2003.

165. A. Gandarillas and F. M. Watt, "c-Myc promotes differentiation of human epidermal stem cells," Genes & Development, vol. 11, no. 21, pp. 2869-2882, Nov. 1997.

166. I. Arnold and F. M. Watt, "c-Myc activation in transgenic mouse epidermis results in mobilization of stem cells and differentiation of their progeny," Current Biology: CB, vol. 11, no. 8, pp. 558-568, Apr. 2001.

167. F. Santilli, N. Vazzana, L. G. Bucciarelli, and G. Davi, "Soluble forms of RAGE in human diseases: clinical and therapeutical implications," Current Medicinal Chemistiy, vol. 16, no. 8, pp. 940-952, 2009.

168. Y. Yao et al., "Type I Interferon: Potential Therapeutic Target for Psoriasis?," PLoS ONE, vol. 3, no. 7, p. e2737+, Jul. 2008.

169. R. Kelly, R. A. Marsden, and D. Bevan, "Exacerbation of psoriasis with GM-CSF therapy," The British Journal of Dermatology, vol. 128, no. 4, pp. 468-469, Apr. 1993.

170. J. Gu et al., "A 588-gene microarray analysis of the peripheral blood mononuclear cells of spondyloarthropathy patients," Rheumatology (Oxford, England), vol. 41, no. 7, pp. 759-766, Jul. 2002.

171. J. Reischl, S. Schwenke, J. M. Beekman, U. Mrowietz, S. Sturzebecher, and J. F. Heubach, "Increased expression of Wnt5a in psoriatic plaques," The Journal of Investigative Dermatology, vol. 127, no. 1, pp. 163-169, Jan. 2007.

172. T. Shiina, K. Hosomichi, H. Inoko, and J. K. Kulski, "The HLA genomic loci map: expression, interaction, diversity and disease," Journal of Human Genetics, vol. 54, no. 1, pp. 15-39, Jan. 2009.

173. K. Asadullah et al., "IL-10 is a key cytokine in psoriasis. Proof of principle by IL-10 therapy: a new therapeutic approach," The Journal of Clinical Investigation, vol. 101, no. 4, pp. 783794, Feb. 1998.

174. J. C. Cancino-Diaz et al., "Interleukin-13 receptor in psoriatic keratinocytes: overexpression of the mRNA and underexpression of the protein," The Journal of Investigative Dermatology, vol. 119, no. 5, pp. 1114-1120, Nov. 2002.

175. A. Pietrzak et al., "Genes and structure of selected cytokines involved in pathogenesis of psoriasis," Folia Histochemica Et Cytohiologica / Polish Academy of Sciences, Polish Histochemical and Cytochemical Society, vol. 46, no. 1, pp. 11-21, 2008.

176. R. Martin, "Interleukin 4 treatment of psoriasis: are pleiotropic cytokines suitable therapies for autoimmune diseases?," Trends in Pharmacological Sciences, vol. 24, no. 12, pp. 613616, Dec. 2003.

177. D. Foell et al., "Expression of the pro-inflammatory protein S100A12 (EN-RAGE) in rheumatoid and psoriatic arthritis," Rheumatology (Oxford, England), vol. 42, no. 11, pp. 1383-1389, Nov. 2003.

178. R. Horuk, "BX471: a CCR1 antagonist with anti-inflammatory activity in man," Mini Reviews in Medicinal Chemistry, vol. 5, no. 9, pp. 791-804, Sep. 2005.

179. M. de Groot et al., "Expression of the chemokine receptor CCR5 in psoriasis and results of a randomized placebo controlled trial with a CCR5 inhibitor," Archives of Dermatological Research, vol. 299, no. 7, pp. 305-313, Sep. 2007.

180. C. N. Ellis and G. G. Krueger, "Treatment of chronic plaque psoriasis by selective targeting of memory effector T lymphocytes," The New England Journal of Medicine, vol. 345, no. 4, pp. 248-255, Jul. 2001.

181. M. A. De Rie, I. Cairo, R. A. Van Lier, and J. D. Bos, "Expression of the T-cell activation antigens CD27 and CD28 in normal and psoriatic skin," Clinical and Experimental Dermatology, vol. 21, no. 2, pp. 104-111, Mar. 1996.

182. E. Prens, K. t Hooft-Benne, B. Tank, J. Van Damme, T. van Joost, and R. Benner, "Adhesion molecules and IL-1 costimulate T lymphocytes in the autologous MECLR in psoriasis," Archives of Dermatological Research, vol. 288, no. 2, pp. 68-73, Feb. 1996.

183. R. Debets et al., "The IL-1 system in psoriatic skin: IL-1 antagonist sphere of influence in lesional psoriatic epidermis," Journal of Immunology (Baltimore, Md.: 1950), vol. 158, no. 6, pp. 2955-2963, Mar. 1997.

184. B. S. Schulz et al., "Increased expression of epidermal IL-8 receptor in psoriasis. Down-regulation by FK-506 in vitro," Journal of Immunology (Baltimore, Md.: 1950), vol. 151, no. 8, pp. 4399-4406, Oct. 1993.

185. E. Guttman-Yassky et al., "Blockade of CDlla by efalizumab in psoriasis patients induces a unique state of T-cell hyporesponsiveness," The Journal of Investigative Dermatology, vol. 128, no. 5, pp. 1182-1191, May. 2008.

186. F. Sjogren, O. Ljunghusen, A. Baas, B. I. Coble, and O. Stendahl, "Expression and function of beta 2 integrin CD 1 IB/CD 18 on leukocytes from patients with psoriasis," Acta Dermato-Venereologica, vol. 79, no. 2, pp. 105-110, Mar. 1999.

187. J. L. Curry et al., "Innate immune-related receptors in normal and psoriatic skin," Archives of Pathology & Laboratory Medicine, vol. 127, no. 2, pp. 178-186, Feb. 2003.

188. A. M. Patterson et al., "Differential expression of syndecans and glypicans in chronically inflamed synovium," Annals of the Rheumatic Diseases, vol. 67, no. 5, pp. 592-601, May. 2008.

189. H. Wakita and M. Takigawa, "E-selectin and vascular cell adhesion molecule-1 are critical for initial trafficking of helper-inducer/memory T cells in psoriatic plaques," Archives of Dermatology, vol. 130, no. 4, pp. 457-463, Apr. 1994.

190. A. Chu, K. Hong, E. L. Berg, and R. O. Ehrhardt, "Tissue specificity of E- and P-selectin ligands in Thl-mediated chronic inflammation," Journal of Immunology (Baltimore, Md.: 1950), vol. 163, no. 9, pp. 5086-5093, Nov. 1999.

191. N. R. Seung et al., "Comparison of expression of heat-shock protein 60, Toll-like receptors 2 and 4, and T-cell receptor gammadelta in plaque and guttate psoriasis," Journal of Cutaneous Pathology, vol. 34, no. 12, pp. 903-911, Dec. 2007.

192. C. Zhao et al., "Identification of novel functional differences in monocyte subsets using proteomic and transcriptomic methods.," Journal of proteome research, vol. 8, no. 8, pp. 4028-4038, Aug. 2009.

193. M. L. Gatza et al., "A pathway-based classification of human breast cancer," Proceedings of the National Academy of Sciences of the United States of America, vol. 107, no. 15, pp. 69946999, Apr. 2010.

194. C. J. Hack, "Integrated transcriptome and proteome data: the challenges ahead.," Briefings in functional genomics & proteomics, vol. 3, no. 3, pp. 212—219, Nov. 2004.

195. K. Steiling et al., "Comparison of proteomic and transcriptomic profiles in the bronchial airway epithelium of current and never smokers.," PloS one, vol. 4, no. 4, 2009.

196. В. Cox, T. Kislinger, and A. Emili, "Integrating gene and protein expression data: pattern analysis and profile mining.," Methods (San Diego, Calif), vol. 35, no. 3, pp. 303-314, Mar. 2005.

197. Y. R. Chen et al., "Quantitative proteomic and genomic profiling reveals metastasis-related protein expression patterns in gastric cancer cells.," Journal of proteome research, vol. 5, no. 10, pp. 2727-2742, Oct. 2006.

198. Y. Nikolsky, T. Nikolskaya, and A. Bugrim, "Biological networks and analysis ofexperimental data in drug discovery.," Drug discoveiy today, vol. 10, no. 9, pp. 653-662, 2005.

199. A. L. Hopkins, "Network pharmacology: the next paradigm in drug discovery," Nature Chemical Biology, vol. 4, no. 11, pp. 682-690, Nov. 2008.

200. R. J. Lipshutz, S. P. Fodor, T. R. Gingeras, and D. J. Lockhart, "High density syntheticoligonucleotide arrays.," Nat Genet, vol. 21, no. 1, pp. 20-24, Jan. 1999.

201. K. Kuhn et al., "A novel, high-performance random array platform for quantitative geneexpression profiling," Genome Research, vol. 14, no. 11, pp. 2347-2356, Nov. 2004.

202. K. L. Gunderson et al., "Decoding randomly ordered DNA arrays," Genome Research, vol.14, no. 5, pp. 870-877, May. 2004.

203. B. M. Bolstad, R. A. Irizarry, M. Astrand, and T. P. Speed, "A comparison of normalization methods for high density oligonucleotide array data based on variance and bias," Bioinformatics, vol. 19, no. 2, pp. 185-193, Jan. 2003.

204. R. A. Irizarry, B. M. Bolstad, F. Collin, L. M. Cope, B. Hobbs, and T. P. Speed, "Summaries of Affymetrix GeneChip probe level data.," Nucl. Acids Res., vol. 31, no. 4, p. el5+, Feb. 2003.

205. Z. Wu, R. A. Irizarry, R. Gentleman, F. Martinez-Murillo, and F. Spencer, "A Model-Based Background Adjustment for Oligonucleotide Expression Arrays," Journal of the American Statistical Association, vol. 99, no. 468, p. 909+.

206. J. J. Chen, S. J. Wang, C. A. Tsai, and C. J. Lin, "Selection of differentially expressed genes in microarray data analysis," The Pharmacogenomics Journal.

207. V. G. Tusher, R. Tibshirani, and G. Chu, "Significance analysis of microarrays applied to the ionizing radiation response," Proceedings of the National Academy of Sciences of the United States of America, vol. 98, no. 9, pp. 5116-5121, Apr. 2001.

208. G. K. Smyth, "Linear models and empirical bayes methods for assessing differential expression in microarray experiments.," Statistical applications in genetics and molecidar biology, vol. 3, no. 1, 2004.

209. J. D. Storey and R. Tibshirani, "Statistical significance for genomewide studies," Proceedings of the National Academy of Sciences of the United States of America, vol. 100, no. 16, pp. 9440-9445, Aug. 2003.

210. Y. Pawitan, S. Michiels, S. Koscielny, A. Gusnanto, and A. Ploner, "False discovery rate, sensitivity and sample size for microarray studies "Bioinformatics, vol. 21, no. 13, pp. 3017— 3024, Jul. 2005.

211. A. Ben-Hur, C. S. Ong, S. Sonnenburg, B. Scholkopf, and G. Ratsch, "Support vector machines and kernels for computational biology," PLoS Computational Biology, vol. 4, no. 10, p. el000173, Oct. 2008.

212. S. Ma and J. Huang, "Penalized feature selection and classification in bioinformatics," Briefings in Bioinformatics, vol. 9, no. 5, pp. 392-403, Sep. 2008.

213. P. Anand et al., "Cancer is a preventable disease that requires major lifestyle changes," Pharmaceutical Research, vol. 25, no. 9, pp. 2097-2116, Sep. 2008.

214. N. Petrucelli, M. B. Daly, and G. L. Feldman, "Hereditary breast and ovarian cancer due to mutations in BRCA1 and BRCA2," Genetics in Medicine: Official Journal of the American College of Medical Genetics, vol. 12, no. 5, pp. 245-259, May. 2010.

215. P. A. Futreal et al., "A census of human cancer genes," Nature Reviews. Cancer, vol. 4, no. 3, pp. 177-183, Mar. 2004.

216. D. Hanahan and R. A. Weinberg, "The hallmarks of cancer," Cell, vol. 100, no. 1, pp. 57-70, Jan. 2000.

217. M. P. Little and G. Li, "Stochastic modelling of colon cancer: is there a role for genomic instability?," Carcinogenesis, vol. 28, no. 2, pp. 479-487, Feb. 2007.

218. T. Sjóblom et al., "The consensus coding sequences of human breast and colorectal cancers," Science (New York, N.Y.), vol. 314, no. 5797, pp. 268-274, Oct. 2006.

219. A. Davidson and B. Diamond, "Autoimmune diseases," The New England Journal of Medicine, vol. 345, no. 5, pp. 340-350, Aug. 2001.

220. B. J. Nickoloff and F. O. Nestle, "Recent insights into the immunopathogenesis of psoriasis provide new therapeutic opportunities.," J Clin Invest, vol. 113, no. 12, pp. 1664-1675, Jun. 2004.

221. C. H. Smith and J. N. Barker, "Psoriasis and its management.," BMJ, vol. 333, no. 7564, pp. 380-384, Aug. 2006.

222. J. T. Elder et al., "Molecular dissection of psoriasis: integrating genetics and biology," The Journal of Investigative Dermatology, vol. 130, no. 5, pp. 1213-1226, May. 2010.

223. L. Samuelsson et al., "A genome-wide search for genes predisposing to familial psoriasis by using a stratification approach," Human Genetics, vol. 105, no. 6, pp. 523-529, Dec. 1999.

224. A. M. Bowcock and W. O. C. M. Cookson, "The genetics of psoriasis, psoriatic arthritis and atopic dermatitis," Human Molecular Genetics, vol. 13, pp. R43-55, Apr. 2004.

225. R. L. Smith, R. B. Warren, C. E. Griffiths, and J. Worthington, "Genetic susceptibility to psoriasis: an emerging picture," Genome Medicine, vol. 1, no. 7, p. 72, 2009.

226. R. P. Nair et al., "Genome-wide scan reveals association of psoriasis with IL-23 and NF-kappaB pathways," Nature Genetics, vol. 41, no. 2, pp. 199-204, Feb. 2009.

227. E. Dika, F. Bardazzi, R. Balestri, and H. I. Maibach, "Environmental factors and psoriasis.," CurrProhl Dermatol, vol. 35, pp. 118-135, 2007.

228. M. A. Lowes, A. M. Bowcock, and J. G. Krueger, "Pathogenesis and therapy of psoriasis," Nature, vol. 445, no. 7130, pp. 866-873, Feb. 2007.

229. I. Kryczek et al., "Induction of IL-17+ T cell trafficking and development by IFN-gamma: mechanism and pathological relevance in psoriasis," Journal of Immunology (Baltimore, Md.: 1950), vol. 181, no. 7, pp. 4733-4741, Oct. 2008.

230. W. Lew, A. M. Bowcock, and J. G. Krueger, "Psoriasis vulgaris: cutaneous lymphoid tissue supports T-cell activation and "Type 1" inflammatory gene expression," Trends in Immunology, vol. 25, no. 6, pp. 295-305, Jun. 2004.

231. X. Zhou et al., "Novel mechanisms of T-cell and dendiitic cell activation revealed by profiling of psoriasis on the 63,100-element oligonucleotide array.," Physiol Genomics, vol. 13, no. 1, pp. 69-78, Mar. 2003.

232. E. A. Ahvawi, E. Krulig, and K. B. Gordon, "Long-term efficacy of biologies in the treatment of psoriasis: what do we really know?," Dermatologic Therapy, vol. 22, no. 5, pp. 431-440, Oct. 2009.

233. W. Strober, I. Fuss, and P. Mannon, "The fundamental basis of inflammatory bowel disease.," J Clin Invest, vol. 117, no. 3, pp. 514-521, Mar. 2007.

234. T. Kucharzik et al., "Recent understanding of IBD pathogenesis: implications for future therapies.," Inflamm Bowel Dis, vol. 12, no. 11, pp. 1068-1083, Nov. 2006.

235. I. Peluso, F. Pallone, and G. Montelcone, "Interleukin-12 and Thl immune response in Crohn's disease: pathogenetic relevance and therapeutic implication.," World J Gastroenterol, vol. 12, no. 35, pp. 5606-5610, Sep. 2006.

236. S. Danese and C. Fiocchi, "Etiopathogenesis of inflammatory bowel diseases," World Journal of Gastroenterology: WJG, vol. 12, no. 30, pp. 4807-4812, Aug. 2006.

237. A. P. Cuthbert et al., "The contribution of NOD2 gene mutations to the risk and site of disease in inflammatory bowel disease," Gastroenterology, vol. 122, no. 4, pp. 867-874, Apr. 2002.

238. T. Watanabe, A. Kitani, P. J. Murray, and W. Strober, "NOD2 is a negative regulator of Tolllike receptor 2-mediated T helper type 1 responses," Nature Immunology, vol. 5, no. 8, pp. 800-808, Aug. 2004.

239. J. H. Cho and C. T. Weaver, "The genetics of inflammatory bowel disease," Gastroenterology, vol. 133, no. 4, pp. 1327-1339, Oct. 2007.

240. J. M. Torpy, C. Lynm, and R. M. Glass, "JAMA patient page. Crohn disease.," JAMA : the journal of the American Medical Association, vol. 299, no. 14, Apr. 2008.