Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов

Ивлиев, Александр Евгеньевич

Бесплатный автореферат и диссертация по биологии на тему
Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов"

На правах рукописи

005004472

Ивлиев Александр Евгеньевич

Анализ генных сетей коэкспрессии для изучения транскрилтома опухолей мозга и

предсказания функций генов

Специальность 03.01.09 Математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

-1 ДЕК 2011

Москва 2011

005004472

Работа выполнена на Факультете биоинженерии и биоинформатики Московского Государственного Университета имени М.В.Ломоносова

Научный руководитель: доктор химических наук, Сергеева Марина Глебовна

Официальные оппоненты: доктор биологических наук, Карягина-Жулина Анна Станиславовна,

ГУ НИИ эпидемиологии и микробиологии им. Н.Ф. Гамалеи, Москва

доктор физико-математических наук, Макеев Всеволод Юрьевич,

Институт общей генетики им. Н.И. Вавилова РАН, Москва

Ведущая организация:

Учреждение Российской академии наук

НИИ биомедицинской химии им. В.Н. Ореховича РАМН, Москва

Защита диссертации состоится 'i.9 декабря 2011 года в -/.^ часов на заседании Диссертационного совета Д 002.077.04 при Учреждении Российской академии наук Институте проблем передачи информации им. A.A. Харкевича РАН по адресу: 127994, Москва, ГСП-4, Большой Каретный переулок, д. 19, стр. 1.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт проблем передачи информации им. A.A. Харкевича РАН.

Автореферат разослан ноября 2011 года.

Ученый секретарь диссертационного совета доктор биологических наук, профессор

Рожкова Г.И.

Общая характеристика работы

Актуальность темы

Технологические достижения последнего десятилетия сделали возможным исследование живых организмов на уровне генетических последовательностей, экспрессии мРНК и белков в полногеномном масштабе. Важное место в полногеномных исследованиях занимает анализ уровней экспрессии генов. Получаемая при таком анализе информация используется для изучения молекулярных механизмов заболеваний, сравнения типов клеток, поиска функций генов и решения других задач биологии и медицины. Возможность подходить к решению актуальных задач на полногеномном уровне привела к созданию ряда проектов в Европе и США по измерению уровней экспрессии большинства известных генов в тканях человека в норме и при различных заболеваниях. К настоящему времени в открытом доступе имеются массивы данных по многим тысячам разнообразных образцов.

Ключевым инструментом анализа полногеномных данных по экспрессии генов являются генные сети коэкспрессии. Этот метод осуществляет поиск групп (модулей) генов, согласованно экспрессирующихся в эксперименте или наборе клинических образцов. Выделение модулей коэкспрессирующихся генов широко применяется для решения задач двух типов: выявление структуры транскриптомных данных и предсказание функций индивидуальных генов. Первый тип задач, как правило, связан с изучением биологии гетерогенных заболеваний, таких как опухоли. В области изучения рака груди и различных видов лейкемии такие исследования открыли новые возможности для диагностики и разработки подходов химиотерапии. Второй тип задач распространен в фундаментальных исследованиях функции генов и аннотации геномов. В данной работе мы применили генные сети коэкспрессии как инструмент для изучения биологии одного из наиболее гетерогенных групп опухолей - глиальных опухолей мозга (задача первого типа), и предложили новый способ верификации результатов, получаемых в экспрессионных работах по предсказанию функций генов (задачи второго типа).

Актуальность исследования глиальных опухолей мозга (глиом) обусловлена двумя причинами. Во-первых, глиомы относятся к наиболее агрессивным и трудно излечимым видам опухолей. Эффективных методов химиотерапии глиом пока не разработано. Продолжительность жизни пациентов с наиболее распространенным типом глиомы (глиобластомой) составляет в среднем один год. Во-вторых, определение типа глиом в клинической практике основано на гистологических методах, известных своей субъективностью. В связи с этим в клиниках ряда стран активно ведутся работы по изучению биологии глиом на основе транскриптомных данных и поиску мРНК-маркеров для объективной диагностики подтипа глиом. При этом ключевой проблемой является сложность структуры транскриптома глиом: уровни экспрессии -20 ООО генов формируются под действием большого количества разнородных факторов. Это является

препятствием к формированию общего взгляда на молекулярные основы агрессивности и разнообразие экспрессионных классов этих опухолей. Мы предположили, что детальная характеристика структуры транскриптома глиом с помощью генных сетей коэкспрессии позволит сделать новые наблюдения в различных аспектах изучения этих опухолей.

Вторая возможность, которую дают генные сети коэкспрессии, заключается в предсказании функции генов. Поиск функциональной связи генов с клеточными процессами, органеллами, метаболическими и сигнальными путями ведется применительно к широкому спектру живых организмов, включая человека. Ключевой проблемой при этом является верификация экспрессионных предсказаний независимыми методами. В последнее время, благодаря развитию разнообразных (в том числе протеомных) баз данных, появляется возможность верификации предсказаний без проведения направленных экспериментов. Поиск таких подходов может существенно улучшить возможности для верификации. В данной работе мы проверили применимость быстро растущей протеомной базы данных Human Protein Atlas к задаче верификации функциональных предсказаний, сделанных методами генных сетей коэкспрессии.

Для решения этих биологических задач мы также провели методические усовершенствования в нескольких направлениях. Во-первых, большой объем экспрессионных данных, накопленный в электронных базах, требует обеспечения интегрированного доступа к этим базам данных. Во-вторых, по вычислительным причинам анализ генных сетей коэкспрессии трудно реализуем в масштабе всего генома. В связи с этим, на практике исследователи часто используют ограниченные выборки генов, что снижает биологическую ценность анализа. В данной работе мы обратились к решению этих методических проблем.

Цель и задачи исследования

Цель работы - развитие методов анализа экспрессионных данных и их применение для изучения биологии глиом и предсказания функций генов.

В работе были поставлены следующие задачи:

1. Создать доступную через веб-сервер программу, упрощающую процесс поиска и загрузки транскриптомных данных из открытых электронных баз

2. Разработать эвристический метод, позволяющий в короткие сроки проводить анализ коэкспрессии применительно к полному набору генов в геноме (20 ООО и более профилей экспрессии)

3. Оценить возможность использования новой крупной протеомной базы данных Human Protein Atlas для верификации функциональных предсказаний, сделанных методом генных сетей коэкспрессии

4. Детально охарактеризовать структуру транскриптома глиальных опухолей мозга методом генных сетей коэкспрессии

5. Применить информацию о структуре транскриптома глиом для развития системы экспрессионной классификации этих опухолей, реконструкции сигнальных путей и поиска потенциальных терапевтических мишеней в глиомах

Научная новизна и практическое значение работы

Впервые детально охарактеризована структура транскриптома глиомы: выделено 20 модулей коэкспрессии, описаны их связи друг с другом и с клиническими характеристиками опухолей. В дополнение к трем известным экспрессионным классам глиомы (мезенхимальному, пролиферативному и пронейралыюму) показано существование еще одного экспрессионного класса с четкой функциональной интерпретацией - проастроцитарного. Впервые определен список мРНК-маркеров опухолей данного класса: АРОЕ, DAAM2, JD4, МАР4, TJP2 и др. (всего 185 генов). Эти маркеры потенциально могут быть использованы для определения соответствующего класса глиом молекулярными методами (например, ОТ-ПЦР в реальном времени), для которых доступен более высокий уровень стандартизации, чем для принятых в диагностике субъективных гистологических методов.

Предсказано, что в регуляцию одного из ключевых онкогенных сигнальных путей в глиомах, активируемого рецептором эпидермалыгого фактора роста (EGFR), вовлечены белки семейства Sprouty (SPRY1, SPRY2, SPRY4). Этот сигнальный путь известен своей повышенной активностью в наиболее агрессивном типе глиом (глиобластомах). Предсказанный механизм его регуляции важен для понимания биологии этого вида опухолей.

Показано, что существуют статистические закономерности распределения мишеней разрешенных к применению противоопухолевых лекарств в генной сети коэкспрессии в глиоме. По результатам анализа, центральные гены модулей, вовлеченных в патогенез глиом, рекомендованы для дальнейшего изучения в качестве потенциальных новых противоопухолевых мишеней.

На примере изучения эукариотической клеточной органеллы - реснички, показана возможность использования протеомной базы данных Human Protein Atlas для подтверждения экспрессионных предсказаний функций генов. Применение Human Protein Atlas может помочь в задачах предсказания широкого спектра генных функций, которые ассоциированы с неравномерным пространственным распределением соответствующих белков в тканях и клетках человека.

Для 74 генов человека впервые предсказана функциональная связь с клеточной органеллой ресничкой. Согласно результатам анализа данных Human Protein Atlas, около 50% этих экспрессионных предсказаний проходят верификацию на белковом уровне. Идентификация этих

белков, функционально связанных с ресничками, расширяет основу для исследований молекулярных механизмов функционирования этой клеточной органеллы.

Научную новизну и практическую значимость также имеет предложенный в работе эвристический метод, позволяющий многократно ускорить анализ генной коэкспрессии и делающий доступным такой анализ в полногеномном масштабе. Создана программа Microarray Retriever, обеспечивающая интегрированный доступ к существующим экспрессионным базам данных (GEO и ArrayExpress) и упрощающая процесс поиска и загрузки данных.

Апробация работы. Результаты диссертационной работы были представлены на международной конференции Moscow Conference on Computational Biology and Bioinformatics (Москва, 21-24 июля, 2011); на международной конференции 19th International Conference on Intelligent Systems for Molecular Biology & lO"1 European Conference on Computational Biology (Вена, 17-19 июля, 2011); на международной конференции European Human Genetics Conference 2011 (Амстердам, 28-31 мая, 2011); на XVIII международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов» (Москва, 11-15 апреля, 2011); на I международной научно-практической конференции «Постгеномные методы анализа в биологии, лабораторной и клинической медицине» (Москва, 17-19 ноября, 2010); на XVII международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов» (Москва, 12-15 апреля, 2010); на Всероссийской научной школе для молодежи «Горизонты нанобиотехнологии» (Москва, 12-16 октября, 2009); на XVI международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов» (Москва, 13-18 апреля, 2009).

Публикации. По материалам диссертации опубликовано 13 печатных работ. Из них статей -3, тезисов устных и стендовых сообщений на конференциях - 10.

Структура и объем работы. Диссертация изложена на ^-f-f- страницах, включает

таблиц, ¡¿Q, рисунков, J? приложения; состоит из введения, обзора литературы, методов, результатов и их обсуждения, выводов и списка литературы, включающего~/Уб"""источников.

Результаты и обсуждение

I. Решение методических проблем в области работы с экспрессионными данными

Накопление огромных объемов экспрессионных данных в открытых базах сделало возможным решение новых типов задач и обобщение результатов из разных экспериментов. Однако для более эффективного использования этого потенциала требуются методические усовершенствования в области поиска данных и их полногеномного анализа. Такие усовершенствования были проведены в данном разделе работы.

1) Создание программы поиска и загрузки данных. Первым этапом в работе по изучению экспрессии генов на основе ранее опубликованных данных является поиск данных в базе и их

загрузка на локальный компьютер. В связи с этим, актуальна задача обеспечения интегрированного доступа к основным мировым экспрессионным базам данных (GEO и ArrayExpress), который бы позволил осуществлять поиск экспериментов параллельно в обеих базах и загрузку экспериментов группами единовременно.

Для решения этих задач мы создали программу Microarray Retriever (MaRe). Эта программа написана на языке Perl и работает на Веб-сервере с операционной системой UNIX. Программа запускается пользователем через браузер и доступна по ссылке hlip:/Avww.lglc.nl/MaRc/. MaRe позволяет осуществлять поиск по наиболее распространенным в области видам запросов: инвентарные номера записей в экспрессионных базах данных, авторы экспериментов, ключевые слова, виды организмов, дата представления данных в базу, характеристики платформы и др. После осуществления поиска пользователь имеет возможность выбрать интересующие эксперименты и загрузить их в виде архива единовременно.

Одновременный доступ к двум базам дает преимущество перед поиском в каждой базе по отдельности. Например, по запросу «ключевое слово: cerebellum» на сайте GEO можно найти 237 экспериментов. По тому же запросу на сайте ArrayExpress можно найти 178 экспериментов, однако сколько из них совпадает между базами не является очевидным. Поиск в двух базах с помощью MaRe находит 237 экспериментов в базе GEO и 28 дополнительных экспериментов в базе ArrayExpress, которые не были найдены в базе GEO. Таким образом, программа автоматизирует процесс сопоставления результатов поиска в двух базах данных.

Дополнительной функцией MaRe является возможность поиска экспрессионных данных через соответствующие публикации в базе PubMed. В этом режиме, программа находит публикации, аннотации которых содержат заданные ключевые слова, и затем - список экспериментов, соответствующих этим публикациям, в экспрессионных базах. Такой поиск помогает найти дополнительные эксперименты, описания которых в экспрессионных базах не содержат заданных ключевых слов.

Таким образом, созданная программа Microarray Retriever дает следующие преимущества по сравнению с использованием сайтов GEO и ArrayExpress:

- интегрированный поиск в двух базах данных;

- поиск экспериментальных данных через ключевые слова в абстрактах PubMed;

- удобный интерфейс для загрузки данных группами.

2) Разработка метода полногеномного анализа коэкспрессии. Построение генной сети коэкспрессии требует измерения корреляций между профилями экспрессии для всех возможных пар генов, входящих в состав сети. Объем оперативной памяти и время, которые необходимы для выполнения этой операции, зависят квадратично от количества анализируемых генов. Например, для построения сети, состоящей из 4 ООО генов, широко применяющимся методом WGCNA (от

англ. «Weighted Gene Coexpression Network Analysis») требуется около 60 Мб оперативной памяти и около 5 мин времени, а для включения в сеть всех транскриптов, уровни экспрессии которых измеряются ДНК-микрочипами (~47 ООО транскриптов в случае распространенной модели микрочипов Affymetrix ШЗЗ Plus 2.0), требуется -8.5 Гб оперативной памяти и около 4 суток. В связи с этим, при анализе генных сетей коэкспрессии на практике часто ограничиваются сравнительно небольшим количеством генов (4-5 тысяч), что снижает биологическую ценность анализа.

Мы разработали эвристический метод, который делает доступным анализ коэкспрессии генов в полногеномном масштабе. Анализ состоит из следующих этапов. (1) На основе случайной выборки генов из генома (нескольких тысяч генов) проводится построение сети коэкспрессии, и в сети выделяются модули. (2) Для каждого модуля вычисляется его характеристический профиль экспрессии путем усреднения профилей входящих в его состав генов. (3) Каждый ген из генома приписывается тому модулю, характеристический профиль экспрессии которого сильнее других коррелирует с индивидуальным профилем экспрессии гена. Таким образом, генный состав модулей, найденных с помощью сети, определяется заново, но уже в полногеномном масштабе. Продолжительность вычислений и объем оперативной памяти на третьем этапе зависят линейно от количества генов.

Оценка качества работы метода проводилась на крупном массиве данных, включающем в себя профили экспрессии 18 ООО генов в приблизительно 100 разных тканях человека (массив GSE7307 из базы данных GEO). Во-первых, напрямую проведено сравнение генного состава модулей в сетях, состоящих из 4 ООО генов (размер доступный для анализа с помощью метода генных сетей коэкспрессии), с генным составом модулей, определенных на тех же наборах генов (размером 4 ООО) путем укрупнения модулей-предшественников из сетей меньшего размера с помощью эвристического метода. Метод показал высокую чувствительность (70-80%) и точность (80-90%). Во-вторых, проведена проверка того, как соотносятся функциональные свойства модулей в сетях небольшого размера (2 ООО генов) с функциональными свойствами полногеномных аналогов этих модулей, полученных с помощью эвристического метода. Для этого построено 20 сетей коэкспрессии на случайных выборках размером в 2 000 генов. Для каждой исходной сети, определено, какие биологические процессы ассоциированы с модулями (анализ обогащения на основе генных списков из базы Gene Ontology, точный тест Фишера), и рассмотрено, как изменяется средний уровень статистической значимости этих ассоциаций при увеличении размера модулей с помощью эвристического метода (рис. 1А). Оказалось, что статистическая значимость возрастает (рис. 1А), т.е. в модули включаются гены преимущественно тех же функций, которые были ассоциированы с модулями в исходной сети. Эти результаты подтверждают точность работы метода.

Размер выборки генов

Рис. 1. Результаты тестирования эвристического метода анализа коэкспрессии генов.

А. Биологические процессы из базы Gene Ontology, ассоциированные с модулями в исходной сети согласно анализу обогащения, сохраняют свою связь с модулями при перерасчете модулей эвристическим методом. Статистическая значимость обогащения возрастает по мере увеличения размера модулей с помощью эвристического метода. Ось абсцисс - количество анализируемых генов: «сеть» - исходные модули в сети, состоящей из 2000 случайно выбранных генов; «2000» - модули, воспроизведенные с помощью эвристического метода на той же выборке из 2000 генов; «4000» - модули увеличенного размера, полученные эвристическим методом на выборке из 4000 генов (2000 исходных генов + 2000 новых выбранных случайным образом); и т.д. Ось ординат - среднее по модулям и биологическим процессам значение отрицательного десятичного логарифма от Р-значения, оценивающего обогащение модуля генами биологического процесса, с которым был ассоциирован исходный модуль в сети (точный тест Фишера). Б. Зависимость времени вычислений от размера выборки генов. Прозрачные кружки - время работы стандартного метода на выборках генов размером не более 4000. Пунктирная линия - оценка времени работы стандартного метода на более крупных выборках генов. Квадраты, соединенные сплошной линией -время работы эвристического метода.

Чтобы оценить выигрыш во времени, который дает эвристический метод, сначала мы определили время, затрачиваемое стандартным методом для выделения модулей в генных сетях коэкспрессии размером от 500 до 4 000 генов с шагом в 500 генов (рис. 1Б). Время анализа резко возрастало от 2 секунд (сеть размером 500 генов) до ~5 минут (сеть размером 4 000 генов). Путем экстраполяции кривой роста времени, было вычислено, что анализ сети полногеномного масштаба (-18 000 генов) при наличии достаточного ресурса оперативной памяти займет около 6 часов (рис. 1Б). Далее, мы определили модули в полногеномном масштабе (18 000 генов) с помощью эвристического метода, используя в качестве исходной сеть размером 2 000 генов. С учетом времени построения исходной сети, получение полногеномных модулей заняло приблизительно 2 минуты (рис. 1Б). Таким образом, предложенный метод многократно ускоряет анализ и снижает требования к объему оперативной памяти. Это делает доступным анализ коэкспрессии генов в полногеномном масштабе.

II. Проверка возможности верификации экспрессионпых предсказаний генных функций с помощью протеомной базы Human Protein Atlas

Ключевой проблемой в работах по предсказанию функций генов методами биоинформатики является верификация этих предсказаний с помощью независимых экспериментальных методов. В тоже время, развитие разнообразных полногеномных ресурсов открытого доступа дает новые возможности для верификации предсказаний компьютерным путем на основе анализа независимых типов данных. Принципиально новым типом крупномасштабных данных являются иммуногистохимические данные в базе Human Protein Atlas. Эта база содержит информацию из развивающегося проекта, цель которого заключается в характеристике локализации белков человека в широком спектре тканей и клеточных типов. База версии В.О содержит иммуногистохимические данные для ~11 ООО белков, полученные с помощью антител, специфичных к этим белкам, и характеризующие локализацию этих белков в 46 тканях человека. Этот ресурс широко используется для изучения белков. Мы предположили, что он также может служить эффективным инструментом верификации транскриптомных предсказаний. Проверка этого предположения проведена на примере поиска генов с конкретной выбранной функцией.

Для исследований была выбрана клеточная органелла ресничка. Выбор объекта обусловлен:

1) легкостью распознания этой органеллы на иммуногистохимических изображениях (реснички образуют массивные пучки на апикальной поверхности мерцательных клеток в эпителии);

2) актуальностью исследований по поиску генов, вовлеченных в функционирование реснички. В настоящее время показано, что такие заболевания человека как почечный поликистоз, гидроцефалия, первичная цилиарная дискинезия и другие вызваны дисфункцией этой органеллы. Молекулярная биология реснички активно изучается и одним. из ее направлений является поиск новых генов, функционально связанных с указанной органеллой. В данном исследовании, в качестве анализируемых тканей были выбраны мозг, дыхательные пути и фаллопиевы трубы, поскольку именно эти ткани содержат наибольшее количество несущих реснички клеток.

12 массивов экспрессионных данных были загружены с помощью программы Microarray Retriever. В каждом массиве данных построена сеть коэкспрессии (4 ООО генов) и в ней выделены модули коэкспрессии: от 11 до 46, в зависимости от массива. Генный состав модулей расширен до полногеномного масштаба предложенным выше методом. В 10-ти массивах обнаружен «мерцательный» модуль, обогащенный генами-маркерами ресничек, известными из литературы (Р < 0.001, точный тест Фишера). Далее, определен консенсусный генный состав этих модулей (статистическая значимость: FDR < 0.5%). Полученный консенсусный модуль состоял из 371 гена. С помощью специализированной базы данных CilDB (обобщает литературу в области изучения протеома ресничек) мы разделили гены в консенсусном модуле на 3 категории по новизне: (I) 237 генов, функциональная связь которых с ресничками уже известна; (II) 60 генов, предсказанных в литературе с низким уровнем достоверности; (III) новые предсказания - 74 гена. Высокое

содержание генов I категории в модуле указывает на повышенную вероятность наличия функциональной связи с ресничками у остальных генов модуля по сравнению со случайной выборкой генов из генома.

На основе иммуногистохимических данных из Human Protein Atlas была изучена локализация белков категории I в ткани фаллопиевых труб и дыхательных путей. База содержала информацию для 136 из 237 белков этой категории. Оказалось, что 76 из них (56%) локализованы специфически в ресничках на субклеточном уровне (на рис. 2А приведен пример иммуногистохимического изображения для белка из категории I с такой локализацией). Еще 34 белка (25%) хотя и ' локализованы в других субклеточных областях мерцательных клеток, но преимущественно | экспрессируются в мерцательных клетках по сравнению с другими клеточными типами. Таким образом, для 81% белков наблюдается специфичная связь с мерцательными клетками. Поскольку эти белки относятся к категории I (функциональная связь с органеллой ресничкой известна), это показывает, что данные из Human Protein Atlas согласуются с уже существующими знаниями об | этой органелле.

Рис. 2. Найденные белки из разных категорий новизны имеют сходную локализацию в ткани j фаллопиевых труб. Мерцательные клетки регулярно перемежаются с эпителиальными клетками без ресничек, что является характерным свойством фаллопиевых труб. Черный цвет соответствует антителам, специфичным к соответствующему белку. На всех изображениях видна преимущественная локализация | белков в ресничках мерцательных клеток. Полный набор изображений доступен в базе Human Protein Atlas.

Далее, мы изучили данные для белков из категорий II и III. На рис. 2Б и 2В приведены примеры иммуногистохимических изображений для белков из этих категорий. Всего база 1 содержала информацию для 34 белков из категории II и 48 белков из категории III. 21 белок (62%, категория II) и 25 белков (52%, категория III) оказались локализованы преимущественно в мерцательных клетках (и часть из этих белков - непосредственно в ресничках на субклеточном уровне). Это указывает на функциональную связь указанных белков с изучаемой органеллой.

RSPH1 C1orf87 LRRC18

Известный маркер ресничек Ранее предсказанный белок Новое предсказание

(категория I) (категория ii) (категория III)

t--- . ' ■ ;■■■ ' s

д ч^г ^ Б * В

^ V; !.. 'fi ■" * : -

^ rai

■ ■

# ш ''-m-i' ' ЩШр

Нк. ' * ^ ~....."И

П : Ш- Zlk ■ * 4 /'¡"¡г - :. à

àr

Jfe f ». *

IL ,

* Jt. ^ •

Таким образом, протеомные данные служат независимым аргументом в пользу правильности соответствующих экспрессионных предсказаний.

Интересно, что некоторые их белков категории III, успешно прошедших верификацию (например, Cllorf63 и Clorfl29), не имеют никаких аннотированных функций в геномных базах данных и не охарактеризованы в литературе. Для таких белков предсказание функциональной связи с органеллой ресничкой может служить первичной функциональной аннотацией.

Таким образом, протеомная база Human Protein Atlas является эффективным инструментом верификации транскриптомных предсказаний. Применение Human Protein Atlas может помочь в задачах предсказания широкого спектра генных функций, которые ассоциированы с неравномерным пространственным распределением соответствующих белков в тканях и клетках человека.

III. Изучение биологии глиом методами генных сетей козкспрессии

Глиомы являются трудно излечимым и гетерогенным типом опухолей. С целью изучения молекулярных свойств глиом и поиска мРНК-маркеров для определения подтипов глиом при диагностике, ведутся работы по изучению экспрессии генов в этих опухолях. Однако сложность транскриптомных данных (уровни экспрессии ~20 ООО генов, находящиеся под влиянием большого количества биологических факторов) является препятствием к формированию общего взгляда на экспрессию генов в этих опухолях. Мы предположили, что генные сети коэкспрессии позволят структурно охарактеризовать транскриптом глиальных опухолей и сделать новые наблюдения в различных аспектах изучения этих опухолей.

1) Общая характеристика структуры транскриптома глиом. Чтобы детально охарактеризовать структуру транскриптома глиальных опухолей, мы проанализировали 5 наиболее крупных массивов данных (всего 790 пациентов) с помощью генных сетей коэкспрессии. Использованные массивы описаны в таблице 1.

К массиву данных GSE16011 (выборка, содержащая 4 000 генов) применен метод анализа генных сетей коэкспрессии WGCNA. Выбор метода продиктован тем, что WGCNA сглаживает шум в сетях коэкспрессии и более точно определяет границы между модулями, чем стандартные методы. Согласно алгоритму WGCNA, сначала была построена сеть коэффициентов корреляции Пирсона между профилями экспрессии генов. Затем на ее основе построена сглаженная сеть, в которой вес ребра между двумя генами тем выше, чем выше сходство наборов соседей этих генов в исходной сети. Путем иерархической кластеризации сглаженной сети и анализа дерева кластеризации алгоритмом Dynamic Tree Cut выделено 20 модулей коэкспрессии. Далее, генный состав этих модулей расширен до полногеномного уровня с помощью предложенного выше эвристического метода.

Таблица 1. Характеристика использованных массивов данных по экспрессии генов в глиомах

№ Идентификатор массива1 Задача Кол-во образцов Типы глиом2 Платформа3

1 GSE16011 Основной анализ 276 ГБ, АА, А, АО, 0 U133 plus 2.0

2 Rembrandt_HF Верификация результатов 159 ГБ, АА, А, АО, О U133 plus 2.0

3 Rembrandt_0 Верификация результатов 183 ГБ, АА, А, АО, 0 U133 plus 2.0

4 GSE4271 Верификация результатов 98 ГБ, АА U133 А

5 GSE4412 Верификация результатов 74 ГБ, АА, АО U133A

1 - массивы данных GSE160U, GSE4271 и GSE4412 загружены из базы GEO; массивы RembrandtHF и RembrandtO получены из базы данных Rembrandt (от англ. «Repository of Molecular Brain Neoplasia Data»), которая специализируется на опухолях мозга. Массив Rembrandt HF (от англ. «Henry Ford») состоит из образцов, полученных в больнице им. Генри Форда, Детройт, США; массив Rembrandt O (от англ. «other») состоит из образцов, полученных в других больницах в рамках проекта GMD1. 2 -гистологические типы глиомы: «ГБ» - глиобластома, «АА» - анапластическая астроцитома, «А» -астроцитома низких стадий, «АО» - анапластическая олигодендроглиома, «О» - олигодендроглиома низких стадий. 3 - модели олигонуклеотидных микрочипов фирмы Affymetrix.

Мы проверили воспроизводимость модулей коэкспрессии в 4-х независимых массивах данных (табл. 1). Все модули оказались воспроизводимыми в каждом из независимых массивов. Для каждого модуля далее был составлен консенсусный список генов: условием включения гена в консенсусный список была принадлежность гена модулю хотя бы в 3-х из 5-ти массивов данных (FDR < 2%). Чтобы функционально аннотировать консенсусные модули, генный состав модулей был проанализирован с помощью программы DAVID на основе трех источников информации: (1) данные из базы Gene Ontology, (2) сведения о локализации генов на хромосомах и (3) списки генов из предшествующих экспрессионных работ. Модули оказались связанными с широким спектром биологических процессов и структур в глиомах (табл. 2). Поскольку консенсусные модули систематически характеризуют соответствующие процессы и структуры на транскрипционном уровне, они представляют интерес для изучения биологии глиом. Это первая в области изучения глиальных опухолей обширная коллекция экспрессионных генных списков, основанная более, чем на одном массиве данных.

Для того, чтобы охарактеризовать связь уровней экспрессии модулей с клиническими характеристиками опухолей, для каждого модуля мы вычислили его характеристический профиль экспрессии. Далее, для каждого модуля проведено сравнение уровня экспрессии между гистологическими подтипами опухолей (глиобластома, астроцитома, олигодендроглиома) и получена оценка корреляции уровня экспрессии модуля со стадиями заболевания и продолжительностью жизни пациентов. Результаты представлены в таблице 3 и показывают связь транскриптома с клиническими характеристиками болезни.

Таблица 1. Биологическая аннотация модулей

Модуль Списки генов, которыми обогащен модуль Аннотация модуля

Типично раковые процессы

М11 Митоз (10 55) Пролиферация

М4 Гликолиз (10"4) Ответ на гипоксию

М1 Развитие сосудов (10'7) Капилляры

Мб Синтез внеклеточного матрикса (10"'6) Более крупные сосуды

М7 Иммунный ответ (10"48) Иммунный ответ

МЗ Регуляция протеин киназ (10"3) Регуляция активности киназ

М2 Противовирусный ответ (10"18) ИФН-зависимые гены

Типы дифференцировки глиомы

М8 Мезенхимальные маркеры (Ю-29) Мезенхимальная дифференцировка

М15 Маркеры астроцитов (10 26) Проастроцитарная дифференцировка

М20 Маркеры нейрогенеза (10"6) Пронейральная дифференцировка

Хромосомные аберрации

М5 Хромосома 19 (10"19) Делеция локуса 19р

М9 Хромосома 1 (10"89) Делеция локуса 1р

М10 Локус 12ц13 (10е) Амплификация локуса 12р13

М16 Хромосома 10 (1019) Делеция локуса 10д

Нормальные функц ии мозга

М13 Маркеры нейронов (10'95) Нормальные нейроны

М19 Маркеры нейронов (10^") Нейроны и пронейральная дифф.

М14 Образование миелина (10"ь) Белое мозговое вещество

Другие

М12 Ядро (10"") Ядро

М17 Ядро ПО'16) Ядро

М18 Синтез белка (10"28) Синтез белка

* - в скобках приведены Р-значения точного теста Фишера

Известно, что различные биологические процессы, например, ангиогенез и ответ клеток на гипоксию, взаимосвязаны в опухолях. Поэтому мы предположили, что профили экспрессии некоторых модулей могут коррелировать, образуя над-модульную структуру. Чтобы охарактеризовать эту структуру, мы кластеризовали модули и пациентов в каждом массиве данных. Результаты были сходными между массивами (пример для массива СБЕ 16011 представлен на рис. 3). Кластеризация выявила две основные группы модулей: А и Е (рис. 3). Группа А преимущественно содержала модули, связанные с опухолевой прогрессией. Их повышенный уровень экспрессии наблюдался в опухолях с плохим прогнозом - глиобластомах (табл. 3), Группа Е преимущественно содержала модули, экспрессирующиеся в опухолях с благоприятным прогнозом - олигодендроглиомах (табл. 3). Яркая выраженность этих двух групп модулей подчеркивает принципиальный характер различий между глиобластомой и олигодендроглиомой.

Таким образом, выделение 20 воспроизводимых модулей коэкспрессии и подробная характеристика их связи друг с другом, а также с внешними клиническими показателями, дают общий взгляд на структуру транскриптома глиомы. Это важно для дальнейших работ по изучению патогенеза и молекулярного разнообразия глиом с помощью транскриптомных данных. Кроме

того, получен набор из 20 консенеусных экспресеионных генных списков, которые характеризуют широкий спектр биологических процессов в глиоме.

Таблица 3. Связь уровней экспрессии модулей с клиническими характеристиками пациентов

Модуль Группа Аннотация Стадия' Гистология1 Время' сох'

М1 А Капилляры 0.37 ГБ 1 1.7*10"2

М2 ИФН-зависимые гены 0.39 ГБ 1 1.3х10'7

МЗ Регуляция акт. киназ 0.44 ГБ 1 < 10""

М4 Ответ на гипоксию 0.59 ГБ 1 1.8x10"

М5 Делеция19ц 0.48 ГБ 1 6.7»109

Мб Кровеносные сосуды 0.52 ГБ 1 1.8x10-"

М7 Иммунный ответ 0.38 ГБ 1 2.6x10''

М8 Мезенхимальная дифф. 0.58 ГБ 1 < Ю',ь

М9 Делеция 1р 0.52 ГБ * 6.6x10",ь

М10 В Амплификация 12ч13 0.25 ГБ 3.7Х101

М11 Пролиферация 0.40 ГБ 1 2.1x10'3

М12 Ядро - - - -

М13 С Нормальные нейроны -0.28 «Норма» - -

М14 Белое вещество - «Норма» - -

М15 О Проастроцитарная дифф. -0.34 А, «Норма» 1 1.8x10-"

М16 Е Делеция 10д -0.59 А, О, «Норма» 1 < ю'6

М17 Ядро -0.42 О т 1.7x10'°

М18 Синтез белка -0.40 О т 2.0х1012

М19 Нейроны и пронейр. дифф. -0.54 О, «Норма» т 2.0x10"

М20 Пронейральная дифф. -0.57 О т б.ОхЮ"14

Результаты получены на массиве данных С8Е16011. Обоснование объединения модулей в группы приведено на рисунке 3. | - коэффициент корреляции Спирмана между характеристическим профилем экспрессии модуля и стадиями опухолей. } - Гистологический тип глиомы, в котором уровень экспрессии модуля повышен (р < 0.05, тест Уилкоксона; «ГБ» - глиобластома, «А» - астроцитома, «О» -олигодендроглиома, «Норма» - образцы опухоли, содержащие примесь нормальных клеток нервной ткани). § - Связь уровней экспрессии модуля с продолжительностью жизни пациентов согласно анализу регрессии Кокса с одной переменной («1» - модуль активирован у пациентов с плохим прогнозом; <ф> - с благоприятным прогнозом). " - Р-значение регрессионного анализа связи модуля с продолжительностью жизни. Символ «-» означает отсутствие статистической значимости.

Стадия: Гистология: Класс.

Продолж, жизни:

OOilirOMMIII

IIIIIIII НИ II II HIIII

М1 Капилляры М2 ИФН-зависимые гены Мб Кровеносные сосуды М7 Иммунный ответ М4 Ответ на гипоксию М5 Делеция 19q МЗ Регуляция активности киназ М8 Мезенхимальная дифф-ка М9 Делеция 1р М10 Амплификация 12q13 М11 Пролиферация М12 Ядро

М13 Нормальные нейроны

М14 Белое мозговое вещество

М15 Проастроцитарная дифф-ка

М16 Делеция 10q

М17 Ядро

М18 Синтез белка

М19 Нейроны и пронейр. дифф-ка

М20 Пронейральная дифф-ка

ШЁШМЯШШШШШШШ*---::--

| Стадия II | Стадия i

III Dr

III |Астроцитома

Il СЗ Мезенх-ный I Q Пролиф-ный

I I Нет данных [3 Пронейральныл И Прозстроцитарный □ Без маркеров

Рис. 3. Структура транскриптома глиомы. Столбцы соответствуют опухолям (276 образцов), строки - генам (приведено по 25 центральных генов из каждого модуля). Высокий уровень экспрессии генов обозначен красным цветом, низкий — зеленым. Модули кластеризованы на основе корреляций между их характеристическими профилями экспрессии; результат кластеризации модулей представлен слева в виде дерева модулей (также отмечены группы модулей А, В, С, О и Е). Аннотации модулей приведены справа. Подчеркнуты названия модулей, уровни экспрессии которых использованы далее для разделения опухолей на классы. Опухоли кластеризованы на основе уровней экспрессии генов, представленных на диаграмме. Снизу указаны клинические характеристики (стадия опухоли, гистологический тип опухоли, продолжительность жизни пациента), а также принадлежность опухолей к экспрессионным классам согласно результатам классификации опухолей с помощью центроидов в нашей работе. Диаграмма получена на массиве данных ввЕ] 6011.

2) Обнаружение проастроцитарного класса глиом на основе профилей генной экспрессии.

Важной проблемой при лечении глиом является субъективность гистологических методов, на которых основано определение типа опухоли при диагностике. Одна и та же опухоль, по мнению двух специалистов, может относиться к разным диагностическим типам. С целью решения этой проблемы, активно ведется разработка системы классификации глиом на основе профилей генной экспрессии. Эта система потенциально может быть использована для объективной диагностики с помощью мРНК-маркеров. Однако трудностью является установление полного списка существующих экспрессионных классов глиомы, что связано со сложностью структуры транскриптома этих опухолей.

В настоящее время установлено существование трех экспрессионных классов глиомы: (1) мезенхимального, (2) пролиферативного и (3) пронейралыюго. Маркерами соответствующих классов в нашей работе являются модули М8, Ml 1 и М20 (согласно результатам сравнения генных списков этих модулей с ранее опубликованными). Результаты кластеризации образцов (рис. 3) показали, что существует группа опухолей, которые не характеризуются высоким уровнем экспрессии ни одного из этих известных модулей-маркеров, однако образуют отдельный кластер на диаграмме (отличающийся от других кластеров повышенным уровнем экспрессии модуля М15). Это указывает на существование ранее не установленного экспрессионного класса опухолей.

Модуль М15 аннотирован нами как модуль лроастроцитарной дифференцировки (табл. 2). В литературе не описаны модули, ассоциированные с такой функцией или имеющие сходный генный состав. Мы оценили свойства опухолей, отличительным свойством которых является активация проастроцитарного модуля M15, в контексте уже известных экспрессионных классов глиомы. Для этого мы кластеризовали образцы на основе профилей экспрессии центральных генов только из 4-х модулей: проастроцитарного (М15), мезенхимального (М8), пролиферативного (Mil) и пронейрального (М20). Это позволило выделить 5 классов опухолей: проастроцитарный, мезенхимальный, пролиферативный, пронейральный, а также «класс без маркеров» (в котором все четыре модуля экспрессировались на низком уровне). Наконец, для каждого класса был вычислен характеристический профиль экспрессии (центроид). С помощью центроидов опухоли были классифицированы во всех 5 массивах данных.

Мы сравнили продолжительность жизни пациентов в полученных классах. Мезенхимальный и пролиферативный классы были ассоциированы с низкой продолжительностью жизни, а пронейральный класс - с высокой (рис. 4). Это согласуется с литературными данными. Проастроцитарный класс оказался воспроизводимо ассоциирован с высокой продолжительностью жизни (рис. 4). Наличие у проастроцитарных глиом неслучайных клинических свойств подтверждает правомерность их объединения в группу.

- Проастро

-- Пронейр

- Мезенх

----Пролиф

......Без марк

GSE16011

О 5 10 15 20

Продолжительность жизни (годы)

Р = 1.5 X 10"7

Rembrandt HF

Т-г

О 5 10 15 20

Продолжительность жизни (годы)

02468 10 02468 10

Продолжительность жизни (годы) Продолжительность жизни (годы)

Рис. 4. Проастроцитарный модуль является маркером опухолей с высокой продолжительностью жизни. Представлены диаграммы Каплана-Мейера продолжительности жизни пациентов в 5 молекулярных классах глиомы для следующих независимых массивов данных: (A) GSE16011, (В) RembrandtHF, (С) GSE4271, (D) GSE4412. Мезенхимальный, пролиферативный, и класс «без маркеров» характеризуются низкой средней продолжительностью жизни; проастроцитарный и пронейральный классы - высокой. Р-значения оценивают статистическую значимость различий в продолжительности жизни между проастроцитарным классом и объединением трех классов с неблагоприятным прогнозом (логарифмический ранговый тест). Массив данных Rembrandt_0 исключен из анализа в связи с отсутствием данных по продолжительности жизни пациентов.

Таким образом, в дополнение к трем известным экспрессиониым классам глиомы нами показано существование еще одного экспрессионного класса с четкой функциональной интерпретацией - проастроцитарного. Мы определили список мРНК-маркеров опухолей данного класса: мРНК генов АРОЕ, DAAM2, Ю4, MAP4, TJP2 и др. (всего 185 генов). Найденные проастроцитарные маркеры потенциально могут быть использованы для определения типа глиом молекулярными методами (например, ОТ-ПЦР в реальном времени), для которых доступен более высокий уровень стандартизации, чем для принятых в диагностике субъективных гистологических методов.

3) Предсказание участия белков врготу в регуляции оикогепиого сигнального пути ЕСРЛ в глиомах. Изучение молекулярных механизмов регуляции сигнальных путей, вовлеченных в канцерогенез, является одним из основных направлений современных исследований в онкологии. Понимание таких механизмов важно для разработки методов направленной химиотерапии и изучения механизмов развития лекарственной устойчивости. Известно, что сигнальный путь рецептора эпидермалыюго фактора роста (ЕбРЯ) - один из ключевых онкогенных путей в глиомах. Этот путь регулирует способность клеток к пролиферации, миграции и выживанию благодаря передаче сигналов через каскад митоген-активируемых протеин киназ (МАРК). Существенный вклад в активацию пути ЕвРЯ в глиомах вносят такие механизмы, как амплификация гена ЕвЕЯ в геноме и повышенное содержание в клетках его мРНК. Хотя сигнальный путь ЕвРЯ активно изучается, понимание регуляторных механизмов, контролирующих этот путь, пока не достигнуто.

Для выявления генов потенциально связанных с активностью пути БвРЯ, мы оценили, как профили экспрессии модулей коррелируют с наличием амплификации гена Ей ЕЯ в геноме и уровнем экспрессии £С/*7? (табл. 4). Оказалось, что модуль МЗ активирован в опухолях с амплификациями гена сильнее, чем любой другой из модулей в транскриптоме глиомы

(Р = 4.6х10'12, тест Уилкоксона). Кроме того, этот модуль превосходил другие по корреляции своего характеристического профиля экспрессии с профилем экспрессии ЕйЕИ (коэффициент корреляции Пирсона = 0.37, Р = 1.3ХЮ'10) (табл.4). Это указывает на связь модуля МЗ с активностью сигнального пути ЕйРЯ.

Модуль МЗ ранее не был описан в литературе. Анализ генного состава МЗ показал, что этот модуль обогащен генами, вовлеченными в регуляцию каскада митоген-активируемых протеин киназ (Р = 1.8х10'4). В частности, в состав модуля входили гены семейства Зрго^у (^ЛОТ, 5РРУ2, 8РИУ4, 8РКЕ01, ЗРШ02). В геноме человека содержится 6 генов этого семейства, и 5 из них принадлежали консенсусному модулю МЗ (статистическая значимость обогащения Р = 2.8х10"8). Известно, что белки вргоШу регулируют активность сигнального пути БОРЯ в некоторых нормальных (фибробласты) и опухолевых (меланома, рак груди) типах клеток человека. Однако, данные о вовлеченности белков вргоШу в регуляцию сигнальных путей в глиоме отсутствуют.

Наши результаты дают несколько указаний на вовлеченность генов 5ргои1у в биологию глиом. Во-первых, повышенный уровень экспрессии этих генов наблюдается у пациентов с низкой продолжительностью жизни. Во-вторых, гены Бркниу коэкспрессируются друг с другом, что указывает на их согласованное функционирование в опухолях. В-третьих, модуль МЗ, содержащий гены БргоШу, ассоциирован с нарушениями в гене ЕОРЯ (табл. 4). Результаты проведенного нами анализа позволяют предположить вовлеченность белков 8ргои!у в регуляцию ключевого онкогенного сигнального пути ЕйРЯ в глиомах.

Эту потенциальную регуляторную связь следует учитывать при изучении ответа клеток глиомы на ингибиторы белка ЕвРЯ (гефитиниб, ерлотиниб и др), которые тестируются в настоящее время как противоопухолевые препараты. Полученный результат также указывает на возможность использования аналогичных исследований транскриптомных данных для реконструкции сигнальных путей в опухолях.

Таблица 4. Связь уровней экспрессии модулей в опухолях с наличием амплификации в геноме и уровнем экспрессии этого гена

Модуль Аннотация (А) Уровень экспрессии модулей в опухолях с амплификацией гена EGFR (Б)Корреляция экспрессии модулей с уровнем экспрессии EGFR

Высокий/ низкий р' Кратность^ ККП* pi

М1 Капилляры t 6.0Е-02 0,99 -0,03 6.4Е-01

М2 ИФН-зависимые гены Т 7.3Е-06 1,41 0,24 4.4Е-05

МЗ Регуляция активности киназ t 4.6Е-12 1,86 0,38 7.5Е-11

М4 Ответ на гипоксию Т 5.2Е-04 1,4 0,03 6.7Е-01

М5 Делеция 19q t 6,9Е-06 1,23 0,16 6.0Е-03

Мб Кровеносные сосуды t 9.5Е-03 1,09 -0,06 З.ЗЕ-01

М7 Immune response 2.1Е-01 1,06 -0,12 5.0Е-02

М8 Мезенхимальная дифф. т 6,ОЕ-О6 1,29 0,07 2.5Е-01

М9 Делеция 1 р т 2.9Е-05 1,21 0,16 6,0Е-03

М10 Амплификация 12q13 - 5.1Е-01 1,39 0,03 6.6Е-01

М11 Пролиферация т 1.5Е-02 1,07 0,14 1.8Е-02

М12 Ядро - 3.5Е-01 0,95 0,12 5.4Е-02

М13 Нейроны 1 7.9Е-03 0,69 -0,10 9.7Е-02

М14 Белое мозговое вещество 4.0Е-01 1,12 -0,11 7.7Е-02

М15 Проастроцитарная дифф. . 6.9Е-01 0,88 -0,10 1.1Е-01

M1S Делеция10q 1 4.7Е-07 0,75 -0,19 1.0Е-03

М17 Ядро 1 1.1Е-05 0,78 -0,10 1.1Е-01

М18 Синтез белка 1 3.9Е-06 0,8 -0,14 2.0Е-02

М19 Пронейральная дифф. 1 1,4Е-07 0,59 -0,22 3.0Е-04

М20 Нейрогенез 1 7,ЗЕ-06 0,64 -0,19 1,ОЕ-О3

(А) Уровень экспрессии каждого модуля (согласно его характеристическому профилю) сравнивали между опухолями с амплификацией гена и остальными опухолями. Модули с повышенным уровнем

экспрессии в опухолях с амплификацией отмечены символом <ф>; модули с пониженным - <ф> (Р < 0.05, тест Уилкоксона). * - Р-значение теста Уилкоксона. + - соотношение уровня экспрессии модуля между двумя группами опухолей. (Б) | - коэффициент корреляции Пирсона между характеристическим профилем экспрессии модуля и профилем экспрессии гена ЕйР7?. § - Р-значение, оценивающее статистическую значимость коэффициента корреляции. Цветом отмечен модуль, уровень экспрессии которого сильнее других повышен в опухолях с активированным £0/"7?, согласно обоим критериям.

4) Поиск потенциальных терапевтических мишеней в глиомах. Одним из направлений изучения рака является поиск белков, модуляция активности которых подавляет рост опухолей. Такие белки используются в качестве мишеней для разработки методов химиотерапии путем поиска веществ-модуляторов активности этих белков. Верификация возможности использования белка в качестве экспериментальной мишени требует применения широкого спектра направленных молекулярно-биологических и биохимических методов. В то же время, на этапе

первичной идентификации таких белков важную роль играют поисковые полногеномные методы. В связи с этим, мы поставили задачу составить выборку белков, на перспективность которых в качестве экспериментальных мишеней в глиомах указывают результаты анализа структуры транскриптома этих опухолей.

Ранее было предложено осуществлять поиск потенциальных противоопухолевых мишеней среди центральных генов пролиферативного модуля в сетях коэкспрессии (НогуаШ Б а/ 2006). Чтобы оценить обоснованность этого предположения, мы изучили распределение мишеней лекарств, уже применяющихся для лечения онкологических заболеваний, по модулям коэкспрессии в глиоме. Для этого была использована база данных ОащВапк, содержащая информацию о том, с какими белками в организме человека связываются лекарственные вещества. С помощью О^Вапк составлен список разрешенных к применению противоопухолевых препаратов (81 лекарство) и соответствующих им мишеней (109 белков). В качестве контрольного использовался список мишеней лекарств, применяющихся для лечения заболеваний неонкологической природы (464 мишени). Далее, изучено, как эти мишени распределены по консенсусным модулям коэкспрессии в глиоме.

Мишенями противоопухолевых лекарств действительно оказался обогащен модуль пролиферации (М11, Р < 0.007). В него попало 9 мишеней, в то время как количество, ожидаемое в рамках случайной модели, составляет 3 мишени (Р < 2 х Ю-3). Ассоциация является специфичной, поскольку модуль М11 не обогащен мишенями лекарств из контрольного списка. Мы рассмотрели, как свойства мишеней связаны с их положением внутри пролиферативного модуля. Оказалось, что количество химически различных лекарств, разработанных к мишени, коррелирует с ее близостью к центру пролиферативного модуля (коэффициент Пирсона = 0.88, Р = 0.0034, рис. 5). Так, каждой из периферических мишеней соответствует лишь по одному-двум лекарствам, в то время как максимальное число лекарств приходится на центральные гены модуля -тимидилатсинтазу и ДНК-топоизомеразу II (шесть и семь препаратов, соответственно) (рис. 5). Известно, что большое количество лекарств, разработанных на одну и ту же мишень, отражает заинтересованность компаний в этой мишени, поскольку она уже показала свою эффективность в клинической практике. Таким образом, результаты анализа подтверждают высказанное ранее предположение о том, что центральные гены пролиферативного модуля возможно использовать в качестве мишеней противоопухолевых лекарств.

Близость мишеней к центру модуля

Рис. 5. Близость противоопухолевых мишеней к центру пролиферативного модуля коррелирует с количеством лекарств, действующих через эти мишени. Точки соответствуют мишеням противоопухолевых лекарств, входящим в состав пролиферативного модуля. Близость мишеней к центру модуля вычисляли как коэффициент корреляции Пирсона между профилем экспрессии гена и характеристическим профилем экспрессии пролиферативного модуля. Прямая наилучшего соответствия получена с помощью линейной регрессии. Оценка статистической значимости коэффициента корреляции между величинами, отложенными по осям, проведена с помощью пермутационного теста (случайное перемешивание пар, 100 ООО итераций).

Следует отметить, что большинство противоопухолевых препаратов, существующих на фармацевтическом рынке, были разработаны в XX веке в рамках парадигмы поиска цитотоксических препаратов, действующих на активно делящиеся клетки. В настоящее время применяется более широкий спектр подходов при разработке лекарств этого класса, которые привели к появлению препаратов с новыми механизмами действия: иматиниб, соравениб, сунитиниб (ингибирование сигнальных путей, активируемых рецепторными тирозинкиназами), авастин (подавление ангиогенеза), бортезомиб (модуляция деградации белков) и др. Мишени некоторых из них находятся в модулях коэкспрессии, отличных от пролиферативного: например, РОвРЯ (сунитиниб) - в модуле кровеносных сосудов Мб, УЕйР (авастин) - в модуле ответа на гипоксию М4. Поэтому можно ожидать, что гены не только пролиферативного, но также и некоторых других модулей могут являться перспективными противоопухолевыми мишенями.

Чтобы составить выборку белков, представляющих интерес в качестве экспериментальных мишеней в глиоме, мы выбрали модули, удовлетворяющие одновременно двум условиям: ассоциация повышенного уровня экспрессии с плохим прогнозом (табл. 3) и связь модуля с опухолевыми процессами (табл. 2), которые, согласно литературным данным, повышают злокачественность глиом. Согласно этим критериям, выбраны модули МЗ, М4, Мб, М8 и МП (суммарно 1026 генов). В каждом из модулей гены были ранжированы по близости к центру модуля: среднее по 5 массивам данных значение коэффициента корреляции между профилем экспрессии гена и характеристическим профилем экспрессии модуля. Наиболее близкие к центрам соответствующих модулей гены (например, А1ЧХА5, АСББЗ, 8РЯУ2, УАУЗ, РАВР7 в модуле МЗ;

АОМ, УЕвРА, ОЬиТЗ, АЫОРТЬ4 в модуле М4; и другие) могут быть рекомендованы для изучения независимыми методами в качестве потенциальных противоопухолевых мишеней.

Для того, чтобы выделить в ранжированных списках генов те, которые проще других подвергнуть первичной экспериментальной оценке, мы провели поиск химических соединений, способных связываться с белками, соответствующими этим генам. С помощью базы данных ОпщВапк составлен список химических соединений, которые хотя и не являются лекарствами при каких-либо заболеваниях, однако находятся в клинических испытаниях либо используются для изучения биологии клетки в фундаментальных исследованиях (822 химических соединений и 282 мишени). Мы определили, какие соединения из этого списка действуют через мишени, принадлежащие модулям МЗ, М4, Мб, М8 и М11. Найдено 138 таких соединений (26 белков). 13 из этих соединений действуют на белки, входящие в число первых 10% белков по близости к центрам соответствующих модулей. Такие химические соединения могут служить потенциальными модуляторами активности соответствующих белков при их дальнейшем экспериментальном изучении.

Выводы

1. Создана программа Microarray Retriever, предоставляющая интегрированный доступ к существующим экспрессионным базам данных (http://Yvww.lgtc.nl/MaRc/).

2. Предложен эвристический метод, делающий доступным поиск модулей коэкспрессии в полногеномном масштабе.

3. При помощи протеомной базы данных Human Protein Atlas верифицированы экспрессионные предсказания функциональной связи с клеточной органеллой ресничкой для 25 генов человека.

4. Детально охарактеризована структура транскриптома глиомы на выборке из 790 больных. Получен набор из 20 воспроизводимых экспрессионных подписей, характеризующих широкий спектр клеточных процессов в глиоме.

5. Показано существование экспрессионного класса глиом, связанного с проастроцитарной дифференцировкой опухолей и благоприятным прогнозом.

6. Предсказано, что в регуляцию одного из ключевых онкогенных сигнальных путей в глиомах, активируемого рецептором эпидермального фактора роста (EGFR), вовлечены белки семейства Sprouty (SPRY1, SPRY2, SPRY4).

7. С использованием базы данных DrugBank, показано существование статистических закономерностей распределения известных в настоящее время противоопухолевых мишеней в сети коэкспрессии генов в глиоме. Предложены новые белки в качестве потенциальных новых противоопухолевых мишеней для дальнейшего изучения.

список работ опубликованных по теме диссертации:

Статьи п научных журналах:

1. Ivliev А.Е„ 't Hoen P.A., Sergeeva M.G. Coexpression network analysis identifies transcriptional modules related to proastrocytic differentiation and Sprouty signaling in glioma. Cancer Research. 2010. 70(24), 10060-10070.

2. Ивлиев A.E.. Руднева B.A., Сергеева М.Г. Применимость анализа сетей коэкспрессии генов к поиску мишеней противоопухолевых лекарств. Молекулярная Биология. 2010. 44(2), 366-374.

3. Ivliev А.Е„ 't Hoen P.A., Villerius M.P., den Dünnen J.T., Brandt B.W. Microarray retriever: a web-based tool for searching and large scale retrieval of public microarray data. Nucleic Acids Research. 2008. 36(Web Server issue): W327-331.

Тезисы конференций:

1. Ivliev A.E.. Sergeeva M.G. Prediction of human cilia-related genes by analysis of open-access transcriptomic and proteomic resources. Moscow Conference on Computational Biology and Bioinformatics, Moscow, Russia, 21-24 July, 2011.

2. Ivliev A.E.. 't Hoen P.A., Sergeeva M.G. Integrative analysis of gene coexpression modules in glioma based on WGCNA algorithm. 19th International Conference on Intelligent Systems for Molecular Biology & 10th European Conference on Computational Biology, Vienna, Austria, 17-19 July, 2011.

3. Ivliev A.E.. 't Hoen P.A., Peters D.J., Sergeeva M.G. Integrative analysis of gene coexpression networks identifies novel ciliary proteins in human tissues. European Human Genetics Conference 2011, Amsterdam, the Netherlands, 28-31 May, 2011.

4. Ивлиев A.E. Анализ транскриптома предсказывает участие белков семейства Sprouty в регуляции онкогенного сигнального пути EGFR в глиомах. XVIII международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов», г. Москва, Россия, 11-15 апреля, 2011.

5. Ивлиев А.Е.. Сергеева М.Г. Полногеномный анализ экспрессии генов в изучении биологии глиом. I международная научно-практическая конференция «Постгеномные методы анализа в биологии, лабораторной и клинической медицине», г. Москва, Россия, 17-19 ноября, 2010.

6. Ивлиев А.Е. Выделение прогностических типов глиомы на основе профилей генной экспрессии. XVII международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов», г. Москва, Россия, 12-15 апреля, 2010.

7. Руднева ВА, Ивлиев А.Е. Сравнение мер коэкспрессии по способности обнаруживать функциональную связь между генами. XVII международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов», г. Москва, Россия, 12-15 апреля, 2010.

8. Ивлиев А.Е.. Сергеева М.Г. Анализ транскриптома глиомы для разработки подходов к ее химиотерапии. Всероссийская научная школа для молодежи «Горизонты нанобиотехнологии», г. Москва, Россия, 12-16 октября, 2009.

9. Ивлиев А.Е. Изучение функции групп коэкспрессирующихся генов на примере анализа образцов из мозга больных глиобластомой. XVI международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов», г. Москва, Россия, 13-18 апреля, 2009.

10. Руднева В.А., Ивлиев А.Е. Исследование генов с высокой связностью в сети коэкспрессии как потенциальных мишеней лекарственных средств. XVI международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов», г. Москва, Россия, 13-18 апреля, 2009.

Заказ № 71-р Подписано в печать 15.11.2011 Тираж 100 экз. Усл. п.л. 1,2

ООО "Цифровичок", тел. (495) 649-83-30 mnv.cfr.ru; е-таИ:info@cfr.ru

Содержание диссертации, кандидата биологических наук, Ивлиев, Александр Евгеньевич

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ.

1.1. Транскриптомика и экспрессионные микрочипы.

1.1.1. Экспрессионные микрочипы.

1.1.2. Экспрессионные микрочипы и РНК-секвенирование.

1.1.3. Накопление данных в базах.

1.2. Генные сети коэкспрессии.а 4 ■

1.2.1. Методы анализа генных сетей коэкспрессии.

1.2.2. Актуальные методические проблемы анализа коэкспрессии.

1.2.2.1. Анализ коэкспрессии в полногеномном масштабе.

1.2.2.2. Верификация предсказаний функций генов.

1.3. Анализ транскриптома при исследовании опухолевых заболеваний.

1.3.1. Полногеномные данные в онкологии.

1.3.2. Анализ коэкспрессии генов в исследованиях и лечении рака.

1.3.3. Глиальные опухоли мозга.

1.3.3.1. Общая характеристика глиом.

1.3.3.2. Задача понимания гетерогенности глиом.

1.3.3.3. Задача изучения регуляции сигнальных путей.

1.3.3.4. Задача поиска потенциальных терапевтических мишеней.

ГЛАВА 2. МЕТОДЫ.

ГЛАВА 3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

3.1. Решение методических проблем в области работы с экспрессионными данными.

3.1.1. Создание программы поиска и загрузки данных.

3.1.2. Разработка метода полногеномного анализа коэкспрессии.

3.2. Проверка возможности верификации экспрессионных предсказаний с помощью протеомной базы Human Protein Atlas.

3.2.1. Поиск модуля, связанного с ресничками, в транскриптоме человека.

3.2.2. Определение консенсусного генного состава модуля.

3.2.3. Предсказание новых генов, функционально связанных с ресничками.'Л

3.2.4. Верификация предсказаний с помощью Human Protein Atlas.

3.3. Изучение биологии глиом методами генных сетей коэкспрессии.

3.3.1. Общая характеристика структуры транскриптома глиом.

3.3.1.1. Поиск модулей коэкспрессирующихся генов.

3.3.1.2. Проверка воспроизводимости модулей.

3.3.1.3. Биологическая аннотация модулей.

3.3.1.4. Характеристика взаимосвязей между модулями.

3.3.2. Обнаружение проастроцитарного экспрессионного класса глиом.

3.3.2.1. Определение проастроцитарного класса опухолей.

3.3.2.2. Проастроцитарный класс характеризуется благоприятным прогнозом.

3.3.2.3. Связь проастроцитарного класса с пронейральным.

3.3.2.4. Сравнение схемы классификации глиом с предложенными ранее.

3.3.2.5. Потенциальное прикладное значение проастроцитарных маркеров.

3.3.3. Предсказание участия белков Брго^у в регуляции пути РХЗРЯ в глиомах.

3.3.4. Поиск потенциальных терапевтических мишеней в глиомах.

3.3.4.1. Изучение расположения известных мишеней в модулях коэкспрессии.

3.3.4.2. Поиск новых потенциальных мишеней.

ВЫВОДЫ.

Введение Диссертация по биологии, на тему "Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов"

Технологические достижения последнего десятилетия сделали возможным исследование живых организмов на уровне генетических последовательностей, экспрессии мРНК и белков в полногеномном масштабе. Важное место в N полногеномных исследованиях занимает анализ уровней экспрессии генов. Получаемая при таком анализе информация используется для изучения молекулярных механизмов заболеваний, сравнения типов клеток, поиска функций генов и решения других задач биологии и медицины. Возможность подходить к решению актуальных задач на полногеномном уровне привела к созданию ряда проектов в Европе и США по измерению уровней экспрессии большинства известных генов в тканях человека в норме и при различных заболеваниях. К настоящему времени в открытом доступе имеются массивы данных по многим тысячам разнообразных образцов.

Актуальность исследования глиальных опухолей' мозга (глиом) обусловлена двумя причинами. Во-первых, глиомы относятся к наиболее агрессивным и трудно излечимым видам опухолей. Эффективных методов химиотерапии глиом пока не разработано. Продолжительность жизни пациентов с наиболее распространенным типом глиомы (глиобластомой) составляет в среднем один год. Во-вторых, определение типа глиом в клинической практике основано на гистологических методах, известных своей субъективностью. В связи с этим в клиниках ряда стран активно ведутся работы по изучению биологии глиом на основе транскриптомных данных и поиску мРНК-маркеров для объективной диагностики подтипа глиом. При этом ключевой проблемой является сложность структуры транскриптома глиом: уровни экспрессии -20 ООО генов формируются под действием большого количества разнородных факторов. Это является препятствием к формированию общего, взгляда на молекулярные основы агрессивности и разнообразие экспрессионных классов, этих опухолей: Мы предположили, что детальная характеристика структуры транскриптома глиом с помощью генных сетей коэкспрессии позволит сделать новые наблюдения в различных аспектах изучения этих опухолей. '

Вторая возможность, которую дают генные сети коэкспрессии, заключается в предсказании функции, генов. Поиск функциональной, связи, генов с клеточными процессами, органеллами,. метаболическими ; и сигнальными- путями ведется применительно к . широкому спектру живых организмов; включая человека; : Ключевой * проблемой при; этом является верификация экспрессионных предсказаний независимыми - методами. В последнее время, благодаря развитию разнообразных (в том числе протеомных). баз данных, появляется: возможность верификации: предсказаний ; без проведения направленных экспериментов. Поиск таких : подходов^ может существенно улучшить возможности для верификации. В данной работе мы проверили применимость быстро растущей протеомной базы данных- Human Protein Atlas к задаче, верификации функциональных предсказании; сделанных методами, генных сетей коэкспрессии: .

Для решения этих биологических задач мы также провели- методические усовершенствования в нескольких направлениях. Во-первых, большой; объем экспрессионных данных, накопленный в электронных базах,, требует обеспечения интегрированного доступа к этим; базам; данных. Во-вторых, по вычислительным причинам анализ- генных , сетей коэкспрессии трудно реализуем в масштабе всего генома. В связи с этим; на практике исследователи часто используют ограниченные выборки генов, что снижает биологическую ценность анализа. В данной работе мы обратились к решению этих методических проблем.

Цель и задачи исследования

В работе были поставлены следующие задачи:

4. Детально охарактеризовать структуру транскриптома глиальньп. опухолей мозга методом генных сетей коэкспрессии

Заключение Диссертация по теме "Математическая биология, биоинформатика", Ивлиев, Александр Евгеньевич

Выводы

1. Создана программа Microarray Retriever, предоставляющая интегрированный доступ к существующим экспрессионным базам данных (http://www.latc.nl/MaRc/).

2. Предложен эвристический метод, делающий доступным поиск, модулёй коэкспрессии в полногеномном масштабе.

3. С помощью протеомной базы данных Human Protein Atlas верифицированы экспрессионные предсказания функциональной связи с клеточной органсллой ресничкой для 25 генов человека.

Библиография Диссертация по биологии, кандидата биологических наук, Ивлиев, Александр Евгеньевич, Москва

1. Aggarwal A., D. L. Guo, Y. Hoshida, et al. 2006. Topological and functional discovery in a gene coexpression meta-network of gastric cancer. Cancer Res. 66, 232-41.

2. Alizadeh A. A., M. B. Eisen, R. E. Davis, et al. 2000. Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature. 403, 503-11.

3. Allison D. B., X. Cui, G. P. Page, et al. 2006. Microarray data analysis: from disarray to consolidation and consensus. Nat Rev Genet. 7, 55-65.

4. Allocco D. J., I. S. Kohane and A. J. Butte 2004. Quantifying the relationship between co-expression, co-regulation and gene function. BMC Bioinformatics. 5, 18.

5. Arnaiz O., J. F. Gout, M. Betermier, et al. 2010. Gene expression in a paleopolyploid: a transcriptome resource for the ciliate Paramecium tetraurelia. BMC Genomics. 11, 547.

6. Arnaiz O., A. Malinowska, C. Klotz, et al. 2009. Cildb: a knowledgebase for centrosomes and cilia. Database (Oxford). 2009, bap022.

7. Ashburner M., C. A. Ball, J. A. Blake, et al. 2000. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 25, 25-9.

8. Avidor-Reiss T., A. M. Maer, E. Koundakjian, et al. 2004. Decoding cilia function: defining specialized genes required for compartmentalized cilia biogenesis. Cell. 117, 527-39.

9. Bacher U., A. Kohlmann and T. Haferlach 2010. Gene expression profiling for diagnosis and therapy in acute leukaemia and other haematologic malignancies. Cancer Treat Rev. 36, 63746.

10. Bacher U., S. Schnittger, C. Haferlach, et al. 2009. Molecular diagnostics in acute leukemias. Clin Chem Lab Med. 47, 1333-41.

11. Bailey P. and H. Cushing 1928. A classification of the tumors of the glioma group on a histogenic basis with a correlated study of prognosis. Lippincott, Philadelphia.

12. Barabasi A. L. and Z. N. Oltvai 2004. Network biology: understanding the cell's functional organization. Nat Rev Genet. 5, 101-13.

13. Barrett T., D. B. Troup, S. E. Wilhite, et al. 2009. NCBI GEO: archive for high-throughput functional genomic data. Nucleic Acids Res. 37, D885-90.

14. Bell D. 2011. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609-15.

15. Bittner M., P. Meltzer, Y. Chen, et al. 2000. Molecular classification of cutaneous malignant melanoma by gene expression profiling. Nature. 406, 536-40.

16. Blacque O. E., E. A. Perens, K. A. Boroevich, et al. 2005. Functional genomics of the cilium, a sensory organelle. Curr Biol. 15, 935-41.

17. BlowN. 2009. Transcriptomics: The digital generation. Nature. 458, 239-42.

18. Bondy M. L., M. E. Scheurer, B. Maimer, et al. 2008. Braintumor epidemiology: consensus from the Brain Tumor Epidemiology Consortium. Cancer. 113, 1953-68.

19. Brandes A. A., A. Tosoni, E. Franceschi, et al. 2008. Glioblastoma in adults. Crit Rev Oncol Hematol. 67, 139-52.

20. Bullard J. H., E. Purdom, K. D. Hansen, et al. 2010. Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments. BMC Bioinformatics. 11, 94.

21. Butte A. J. and I. S. Kohane 2000. Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements. Pac Symp Biocomput. 418-29.

22. Cahan P., F. Rovegno, D. Mooney, et al. 2007. Meta-analysis of microarray results: challenges, opportunities, and recommendations for standardization. Gene. 401, 12-8.

23. Cahoy J. D., B. Emery, A. Kaushal, et al. 2008. A transcriptome database for astrocytes, neurons, and oligodendrocytes: a new resource for understanding brain development andfunction. JNeurosci. 28, 264-78.i

24. Calvo S., M. Jain, X. Xie, et al. 2006. Systematic identification of human mitochondrial disease genes through integrative genomics. Nat Genet. 38, 576-82.

25. Carlson M. R., B. Zhang, Z. Fang, et al. 2006. Gene connectivity, function, and sequence conservation: predictions from modular yeast co-expression networks. BMC Genomics. 7, 40.

26. Carro M. S., W. K. Lim, M. J. Alvarez, et al. 2010. The transcriptional network for mesenchymal transformation of brain tumours. Nature. 463, 318-25.

27. Carter S. L., C. M. Brechbuhler, M. Griffin, et al. 2004. Gene co-expression network topology provides a framework for molecular characterization of cellular state. • Bioinformatics. 20, 2242-50.

28. Chikina M. D., C. Huttenhower, C. T. Murphy, et al. 2009. Global prediction of tissue-specific gene expression and context-dependent gene networks in Caenorhabditis elegans. PLoS Comput Biol. 5, el000417.

29. Choi J. K., U. Yu, S. Kim, et al. 2003. Combining multiple microarray studies and modeling interstudy variation. Bioinformatics. 19 Suppl 1, i84-90.

30. Citri A. and Y. Yarden 2006. EGF-ERBB signalling: towards the systems level. Nat Rev Mol Cell Biol. 7, 505-16.

31. Colman H., L. Zhang, E. P. Sulman, et al. 2010. A multigene predictor of outcome in glioblastoma. Neuro Oncol.^ 12; 49-57.

32. Cunliffe C. H., I. Fischer, Y. Parag, et al. 2010. State-of-the-art pathology: new WHO classification, implications, and new developments. Neuroimaging Clin N Am. 20, 259-71.

33. Davies G. C., P. E. Ryan, L. Rahman, et al. 2006. EGFRvIII undergoes activation-dependent downregulation mediated by the Cbl proteins. Oncogene. 25, 6497-509.

34. DeAngelis L. M. 2001. Brain tumors. N Engl J Med. 344, 114-23.

35. Dennis G., Jr., B. T. Sherman, D. A. Hosack, et al. 2003. DAVID: Database for Annotation, Visualization, and Integrated Discovery. Genome Biol. 4, P3.

36. Ducray F., A. Idbaih, A. de Reynies, et al. 2008. Anaplastic oligodendrogliomas with lpl9q codeletion have a proneural gene expression profile. Mol Cancer. 7,41.

37. DufVa M. 2009. Introduction to microarray technology. Methods Mol Biol. 529, 1-22.

38. Efimenko E., K. Bubb, H. Y. Mak, et al. 2005. Analysis of xbx genes in C. elegans. Development. 132, 1923-34.

39. Egan J. E., A. B. Hall, B. A. Yatsula, et al. 2002. The bimodal regulation of epidermal growth factor signaling by human Sprouty proteins. Proc Natl Acad Sci USA. 99, 6041-6.

40. Ehlting J., N. J. Provart and D. Werck-Reichhart 2006. Functional annotation of the Arabidopsis P450 superfamily based on large-scale co-expression analysis. Biochem Soc Trans. 34, 1192-8.

41. Eisen M. B., P. T. Spellman, P. O. Brown, et al. 1998. Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci U SA. 95, 14863-8.

42. Ekstrand A. J., C. D. James, W. K. Cavenee, et al. 1991. Genes for epidermal growth factor receptor, transforming growth factor alpha, and epidermal growth factor and their expression in human gliomas in vivo. Cancer Res. 51, 2164-72.

43. Esteller M. 2007. Cancer epigenomics: DNA methylomes and histone-modification maps. Nat Rev Genet. 8, 286-98.

44. Freedman J. A., D. S. Tyler, J. R. Nevins, et al. 2011. Use of gene expression and pathway signatures to characterize the complexity of human melanoma. Am J Pathol. 178; 2513-22.

45. Freije W. A., F. E. Castro-Vargas, Z. Fang, et al. 2004. Gene expression profiling of gliomas strongly predicts survival. Cancer Res. 64, 6503-10.

46. Garcia M., A. Jemal, E. M. Ward,.e/ al. 2007. Global Cancer Facts & Figures 200'7. American Cancer Society.

47. Gargalovic P. S., M. Imura, B. Zhang, et al. 2006. Identification of inflammatory gene modules based on variations of human endothelial cell responses to oxidized lipids. Proc Natl Acad Sci USA. 103, 12741-6.

48. Gherman A., E. E. Davis and N. Katsanis 2006. The ciliary proteome database: an integrated community resource for the genetic and functional dissection of cilia. Nat Genet. 38, 961-2'.

49. Godard S., G. Getz, M. Delorenzi, et al. 2003. Classification of human astrocytic gliomas on the basis of gene expression: a correlated group of genes with angiogenic activity emerges as a strong predictor of subtypes. Cancer Res. 63,* 6613-25.

50. Grant'S. F. and H. Hakonarson 2008. Microarray technology and applications in the arena of genome-wide association. Clin Chem. 54; 1116-24.

51. Gravendeel L. A., M. C. Kouwenhoven, O. Gevaert, et al 2009. Intrinsic gene expression profiles of gliomas are a better predictor of survival than histology. Cancer Res. 69, 9065-72.

52. Haferlach T., U. Bacher, A. Kohlmann, et al. 2009. Discussion of the applicability of microarrays: profiling of leukemias. Methods Mol Biol. 509; 15-33.

53. Hanahan D. and R. A. Weinberg 2000. The hallmarks of cancer. Cell. 100, 57-70.

54. Harbeck N., M. Salem, U. Nitz, et al 2010. Personalized treatment of early-stage breast cancer: present concepts and future directions. Cancer Treat Rev. 36, 584-94.

55. Hartigan J. A. 1975. Clustering Algorithms. Wiley, New York. 351.

56. Horvath S., B. Zhang, M. Carlson, et al. 2006. Analysis of oncogenic signaling networks in glioblastoma identifies ASPM as a molecular target. Proc Natl Acad Sci USA. 103, 17402-7.

57. Hu B., B. Shi, M. J. Jarzynka, et al. 2009. ADP-ribosylation factor 6 regulates glioma cell invasion through the IQ-domain GTPase-activating protein 1-Racl-mediated pathway. Cancer Res. 69, 794-801.

58. Hu H. and X. Li 2007. Transcriptional regulation in eukaryotic ribosomal protein genes. Genomics. 90, 421-3.

59. Huang P. H., A. M. Xu and F. M. White 2009. Oncogenic EGFR signaling networks in glioma. Sci Signal. 2, re6.

60. Jacob F. and J. Monod 1961. Genetic regulatory mechanisms in the "synthesis of proteins. J Mol Biol. 3,318-56.

61. Jones D. 2008. Pathways to cancer therapy. Nat Rev Drug Discov. 7, 875-6.

62. Jones S., R. H. Hruban, M. Kamiyama, et al. 20091 Exomic sequencing identifies PALB2 as a pancreatic cancer susceptibility gene. Science. 324, 217.

63. Kaneko N., K. Miura, Z. Gu, et al. 2009. siRNA-mediated knockdown against CDCA1 and KNTC2, both frequently overexpressed in colorectal and gastric cancers, suppresses ccll proliferation and induces apoptosis. Biochem Biophys Res Commun. 390; 1235-40.'

64. Kang M. K. and S. K. Kang 2008. Pharmacologic blockade of chloride channel synergistically enhances apoptosis of chemotherapeutic drug-resistant cancer stem cells. Biochem Biophys Res Commun. 373, 539-44.

65. Keime-Guibert F., O. Chinot, L. Taillandier, et al. 2007. Radiotherapy for glioblastoma in the elderly. N Engl J Med. 356, 1527-35.

66. Kerr G., H. J. Ruskin, M. Crane, et al. 2008. Techniques for clustering gene expression data. Comput Biol Med. 38, 283-93.

67. KhazenzonN. M., A. V. Ljubimov, A. J. Lakhter, et al. 2003. Antisense inhibition of laminin-8 expression reduces invasion of human gliomas in vitro. Mol Cancer Ther. 2, 985-94.

68. Kim J., J. E. Lee, S. Heynen-Genel, et al. 2010. Functional genomic screen for modulators of ciliogenesis and cilium length. Nature. 464, 1048-51.

69. Kotliarov Y., S. Kotliarova, N. Charong, et al. 2009. Correlation analysis between single-nueleotide polymorphism and expression arrays in gliomas identifies potentially relevant target genes. Cancer Res. 69, 1596-603.

70. Ku B. M., Y. K. Lee, J. Ryu, et al. 2011. CHI3L1 (YKL-40) is expressed in human gliomas ' and regulates the invasion, growth and survival of glioma cells. Int J Cancer. 128, 1316-26.

71. Mercier M., S. Fortin, V. Mathieu, et al. 2010. Galectins and gliomas. Brain Pathol. 20, 17-27.1.e H. K., A. K. Hsu, J. Sajdak, et al. 2004. Coexpression analysis of human genes across many microarray data sets. Genome Res. 14~, 1085-94.

72. A., J. Walling, S. Ahn, et al. 2009. Unsupervised analysis of transcriptomic profiles reveals six glioma subtypes. Cancer Res. 69, 2091-9.

73. B., X. Q. Qi, X. Chen, et al. 2010. Expression of targeting protein for Xenopus Kinesin-like protein 2 is associated with progression of human malignant astrocytoma. Brain Res. 1352, 200-7.

74. Madhavan S., J. C. Zenklusen, Y. Kotliarov, et al. 2009. Rembrandt: helping personalized medicine become a reality through integrative translational research. Mol Cancer Res. 7, 15767.

75. Malone J. H. and B. Oliver 2011. Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol. 9, 34.

76. Mandal S., M. Moudgil and S. K. Mandal 2009. Rational drug design. Ear J Pharmacol. 625; 90-100:

77. May D., A. Itin, O. Gal, et al. 2005. Erol-L alpha plays a key role in a HIF-1-mediated pathway to improve disulfide bond formation and VEGF secretion under hypoxia: implication for cancer. Oncogene. 24, 1011-20.

78. McClintock T. S., C. E. Glasser, S. C. Bose, et al. 2008. Tissue expression patterns identify mouse cilia genes. Physiol Genomics. 32, 198-206.

79. Merchant S. S., S. E. Prochnik, O. Vallon, et al. 2007. The Chlamydomonas genome reveals the evolution of key animal and plant functions. Science. 318, 245-50.

80. Metellus P., B. Voutsinos-Porche, I. Nanni-Metellus, et al. 2011. Adrenomedullin expression and'regulation in human glioblastoma, cultured human glioblastoma cell lines and pilocytic astrocytoma. Eur J Cancer. 47, 1727-35.

81. Miller C. R. and A. Perry 2007. Glioblastoma: morphological and molecular genetic diversity. Arch Pathol Lab Med. 131, 397- 406.

82. Miller J. A., S. Horvath and D. H. Geschwind-2010. Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways. Proc Natl Acad Sci USA. 107, 12698703.

83. Miller J. A., M. C. Oldham and D. H. Geschwind 2008. A systems level analysis of transcriptional changes in Alzheimer's disease and normal aging. J Neurosci. 28, 1410-20.

84. Mischel P. S., T. F. Cloughesy and S. F. Nelson 2004. DNA-microarray analysis of brain cancer: molecular classification for therapy. Nat Rev Neurosci. 5, 782-92.

85. Mita R., M. J. Beaulieu, C. Field, et al. 2010. Brain fatty acid-binding protein and omega-3/omega-6 fatty acids: mechanistic insight into malignant glioma cell migration. J Biol Chem. 285,37005-15.

86. Miyazaki K., T. Kawamoto, K. Tanimoto, el al. 2002. Identification of functional hypoxia response elements in the promoter region of the DEC1 and DEC2 genes. J Biol Chem. 277, 47014-21.

87. Moody S. E., J. S. Boehm, D. A. Barbie, et al. 2010. Functional genomics and cancer drug target discovery. Curr Opin Mol Ther. 12, 284-93.

88. Mosesson Y., G. B. Mills and Y. Yarden 2008. Derailed endocytosis: an emerging feature of cancer. Nat Rev Cancer. 8, 835-50.

89. Murat A., E. Migliavacca, T. Gorlia, et al. 2008. Stem cell-related "self-renewal" signature and high epidermal growth factor receptor expression associated with resistance to concomitant chemoradiotherapy in glioblastoma. J Clin Oncol. 26, 3015-24.

90. Mustafa D. A., A. M. Sieuwerts, P. P. Zheng, et al. 2010. Overexpression of Colligin 2 in Glioma Vasculature is Associated with Overexpression of Heat Shock Factor 2. Gene Regul Syst Bio. 4, 103-7.

91. Naik M. U. and U. P. Naik 2011. Calcium- and integrin-binding protein 1 regulates microtubule organization and centrosome segregation through polo like kinase 3 during cell cycle progression. Int JBiochem Cell Biol. 43, 120-9.

92. Ng L., A. Bernard, C. Lau, et al. 2009. An anatomic gene expression atlas of the adult mouse brain. Nat Neurosci. 12, 356-62.

93. Nicholas M. K., R. V. Lukas, N. F. Jafri, et al. 2006. Epidermal growth factor receptor -mediated signal transduction in the development and therapy of gliomas. Clin Cancer Res. 12, 7261-70.

94. Nutt C. L., D. R. Mani, R. A. Betensky, et al. 2003. Gene expression-based classification of malignant gliomas correlates better with survival than histological classification. Cancer Res. 63, 1602-7.

95. Ohgaki H. and P. Kleihues 2005. Population-based studies on incidence, survival rates, and genetic alterations in astrocytic and oligodendroglial gliomas. J Neuropathol Exp Neurol. 64, 479-89.

96. Oldham M. C., S. Horvath and D. H. Geschwind 2006. Conservation and evolution of gene coexpression networks in human and chimpanzee brains. Proc Natl Acad Sci U S A. 103, 17973-8.

97. Oldham M. C., G. Konopka, K. Iwamoto, et al. 2008. Functional organization of the transcriptome in human brain. Nat Neurosci. 11, 1271-82.

98. Omuro A. M., S. Faivre and E. Raymond 2007. Lessons learned in the development of targeted therapy for malignant gliomas. Mol Cancer Ther. 6, 1909-19.

99. Onishi M., T. Ichikawa, K. Kurozumi, et al. 2011. Angiogenesis and invasion in glioma. Brain Tumor Pathol. 28, 13-24.

100. Ostrowski L. E., K. Blackburn, K. M. Radde, et al. 2002. A proteomic analysis of human cilia: identification of novel components. Mol Cell Proteomics. 1, 451-65.

101. Ozsolak F. and P. M. Milos 2011. RNA sequencing: advances, challenges and opportunities. Nat Rev Genet. 12, 87-98.

102. Park C. Y., D. C. Hess, C. Huttenhower, et al. 2010. Simultaneous genome-wide inference of physical, genetic, regulatory, and functional pathway components. PLoS Comput Biol. 6, el001009.

103. Park J., P. van Koeverden, B. Singh, et al. 2007. Identification and characterization of human ribokinase and comparison of its properties with E. coli ribokinase and human adenosine kinase. FEBS Lett. 581, 3211-6.

104. Parkinson H., M. Kapushesky, N. Kolesnikov, et al. 2009. ArrayExpress update—from nn archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids Res. 37, D868-72.

105. Parsons D. W., S. Jones, X. Zhang, et al. 2008. An integrated genomic analysis of human glioblastoma multiforme. Science. 321, 1807-12.

106. Pazour G. J., N. Agrin, J. Leszyk, et al. 2005. Proteomic analysis of a eukaryotic cilium. ./ Cell Biol. 170, 103-13.

107. Pena-Castillo L. and T. R. Hughes 2007. Why are there still over 1000 uncharacterized yeast genes? Genetics. 176, 7-14.

108. Perou C. M., T. Sorlie, M. B. Eisen, et al. 2000. Molecular portraits of human breast tumours. Nature. 406, 747-52.

109. Phillips H. S., S. Kharbanda, R. Chen, et al. 2006. Molecular subclasses of high-grade glioma predict prognosis, delineate a pattern of disease progression, and resemble stages in neurogenesis. Cancer Cell. 9, 157-73.

110. Presson-A. P., E. M. Sobel, J. G. Papp, et al. 2008. Integrated weighted gene cc-expression network analysis with an application to chronic fatigue syndrome. BMC Syst Biol. 2, 95.

111. Quackenbush J. 2001. Computational analysis of microarray data. Nat Rev Genet. 2, 418-27.

112. Ravasz E., A. L. Somera, D. A. Mongru, et al. 2002. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-5.

113. Rhodes D. R. and A. M. Chinnaiyan 2005. Integrative analysis of the cancer transcriptome. Nat Genet. 37 Suppl, S31-7.

114. Rhodes D. R., J. Yu, K. Shanker, et al. 2004. Large-scale meta-analysis*of cancer microarray data identifies common transcriptional profiles of neoplastic transformation and progression: Proc Natl Acad Sci USA. 101, 9309-14.

115. Rivera-Pomar R. and H. Jackie 1996. From gradients to stripes in Drosophila embryo genesis: filling in the gaps. Trends Genet. 12,478-83.

116. Rosa D. D., G. Ismael, L. D. Lago, et al. 2008. Molecular-targeted therapies: lessons frqm years of clinical development. Cancer Treat Rev. 34, 61-80.

117. Ross A. J., L. A. Dailey, L. E. Brighton, et al. 2007. Transcriptional profiling of mucociliary differentiation in human airway epithelial cells. Am JRespir Cell Mol Biol. 37, 169-85.

118. Ruano Y., M. Mollejo, A. R. de Lope, et al. 2010. Microarray-based comparative genomic hybridization (array-CGH) as a useful tool for identifying genes involved in Glioblastoma (GB). Methods Mol Biol. 653; 35-45.

119. Sabattini E., F. Bacci, C. Sagramoso, et al 2010. WHO classification of tumours of haematopoietic and lymphoid tissues in 2008: an overview. Pathologica. 102, 83-7.

120. Sakharkar M. K., P. Li, Z. Zhong, et al. 2008. Quantitative analysis on the characteristics of targets with FDA approved drugs. IntJBiol Sci. 4, 15-22.

121. Salhia B., N. L. Tran, A. Chan, et al. 2008. The guanine nucleotide exchange factors trio, Ect2, and Vav3 mediate the invasive behavior of glioblastoma. Am J Pathol. 173, 1828-38.

122. Sano M., N. Genkai, N. Yajima, et al. 2006. Expression level of ECT2 proto-oncogene correlates with prognosis in glioma patients. Oncol Rep. 16, 1093-8.

123. Sathornsumetee S., D. A. Reardon, A. Desjardins, et al. 2007. Molecularly targeted therapy for malignant glioma. Cancer. 110, 13-24.

124. Sawyers C. 2004. Targeted cancer therapy. Nature. 432, 294-7.

125. Schena M., D. Shalon, R. W. Davis, et al. 1995. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science. 270, 467-70.

126. Schlesinger M. J. 1990. Heat shock proteins. J Biol Chem. 265, 12111-4.

127. Schmidt F., C. B. Knobbe, B. Frank, et al. 2008. The topoisomerase II inhibitor, genistein, induces G2/M arrest and apoptosis in human malignant glioma cell lines. Oncol Rep. 19, 1061-6.

128. Schmidt M. H., F. B. Furnari, W. K. Cavenee, et al. 2003. Epidermal growth factor receptor signaling intensity determines intracellular protein interactions, ubiquitination, and internalization. Proc Natl Acad Sci USA. 100, 6505-10.

129. Segal E., N. Friedman, N. Kaminski, et al. 2005. From signatures to models: understanding cancer using microarrays. Nat Genet. 37 SuppI, S38-45. '

130. Shah S. P., M. Kobel, J. Senz, et al 2009. Mutation of F0XL2 in granulosa-cell tumors of the ovary. N Engl J Med. 360,- 2719-29.

131. Shai R., T. Shi, T. J. Kremen,,^ al. 2003. Gene expression profiling identifies molecular subtypes of gliomas. Oncogene. 22; 4918-23.

132. Shendure J. and H. Ji 2008. Next-generation DNA sequencing. Nat Biotechnol. 26, 1135-45.

133. Slodkowska E. A. and J. S. Ross 2009. MammaPrint 70-gene signature: another milestone in personalized medical care for breast cancer patients. Expert Rev Mol Diagn. 9; 417-22.

134. Somma M. P:, F. Ceprani, E. Bucciarelli, et al. 2008«. Identification of Drosophila mitotic genes by*combining co-expression>analysis and RNA interference. PLoS Genet. 4, el000126.

135. Sotiriou G. and L. Pusztai 2009. Gene-expression signatures in breast cancer. N Engl J Med. 360; 790-800.

136. Soulier J., E. Clappier, J. M. Cayuela, et al. 2005. HOXA genes are included in genetic and biologic networks defining human.acute T-cell leukemia (T-ALL). Blood. 106, 274-86.

137. Stieber D., S. A. Abdul Rahim and S. P. Niclou 2011. Novel ways to target brain tumour metabolism. Expert Opin Ther Targets. 15, 1227-39.

138. Stratton M. R'. 2011. Exploring the genomes of cancer cells: progress and promise. Science. 331", 1553-8. •

139. Stratton M. R., P. J. Campbell and P. A. Futreal 2009. The cancer genome. Nature. 458, 71924.

140. Stuart J1. M., E. Segal, D. Koller, et al. 2003. A gene-coexpression network for'global discovery of conserved genetic modules. Science. 302, 249-55.

141. Stupp R., W. P. Mason, M. J. van den Bent, et al. 2005. Radiotherapy plus concomitant and adjuvant temozolomide for glioblastoma. N Engl J Med. 352, 987-96.

142. Subramanian A., P. Tamayo, V. K. Mootha, et al. 2005. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci USA. 102, 15545-50.

143. Sulman E. P. and K. Aldape 2011. The use of global profiling in biomarker development for gliomas. Brain Pathol. 21, 88-95.

144. Sundaresh S., S. P. Hung, G. W. Hatfield, et al. 2005. How noisy and replicable are DNA microarry data? Int JBioinform Res Appl. 1, 31-50.

145. Tatenhorst L., U. Rescher, V. Gerke, et al. 2006. Knockdown of annexin 2 decreases migration of human glioma cells in vitro. Neuropathol Appl Neurobiol. 32, 271-7.

146. Timmons J. A., O. Larsson, E. Jansson, et al 2005. Human muscle gene expression responses to endurance training provide a novel perspective on Duchenne muscular dystrophy. FASEB J. 19, 750-60.

147. Trapnell C., L. Pachter and S. L. Salzberg 2009. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, 1105-11.

148. Varela I., P. Tarpey, K. Raine, et al. 2011. Exome sequencing identifies frequent mutation of the SWI/SNF complex gene PBRM1 in renal carcinoma. Nature. 469; 539-42.

149. Wang H., X. He, M.'Band, et al. 2005. A study of inter-lab and inter-platform agreement of DNA microarray data. BMC Genomics. 6, 71.

150. Wang Z., M. Gerstein and M. Snyder 2009. RNA-Seq: a revolutionary tool for' transcriptomics. Nat Rev Genet. 10, 57-63.

151. Waters A. M. and P. L. Beales 2011. Ciliopathies: an expanding disease spectrum. Pediatr Nephrol. 26, 1039-56.

152. Weigelt B., F. L. Baehner and J. S. Reis-Filho 2010. The contribution of gene expression profiling to breast cancer classification, prognostication and prediction: a retrospective of the last decade. J Pathol. 220, 263-80.

153. Wen P. Y. and S. Kesari 2008. Malignant gliomas in adults. N Engl J Med. 359, 492-507.

154. Wirapati P., C. Sotiriou, S. Kunkel, et al. 2008. Meta-analysis of gene expression profiles in breast cancer: toward a unified understanding of breast cancer subtyping and prognosis signatures. Breast Cancer Res. 10, R65.

155. Wishart D. S. 2007. Drug-target discovery in silico: using the web to identify novel molecular targets for drug action. SEB Exp Biol Ser. 58, 145-76.

156. Wishart D. S., C. Knox, A. C. Guo, et al. 2008. DrugBank: a knowledgebase for drugs, drug • actions and drug targets. Nucleic Acids Res. 36, D901-6.

157. Wolf A., S. Agnihotri, J. Micallef, et al 2011. Hexokinase 2 is a key mediator of aerobic glycolysis and promotes tumor growth in human glioblastoma multiforme. J Exp Med. 208, 313-26.

158. Wolfe C. J., I. S. Kohane and A. J. Butte 2005. Systematic survey reveals general applicability of "guilt-by-association" within gene coexpression networks. BMC Bioinformatics. 6, 227.

159. Wong E. S., C. W. Fong, J. Lim, et al. 2002. Sprouty2 attenuates epidermal growth factor receptor ubiquitylation and endocytosis, and consequently enhances Ras/ERK signalling. EMBOJ. 21, 4796-808.

160. Wren J. D. 2009. A global meta-analysis of microarray expression data to predict unknown gene functions and estimate the literature-data divide. Bioinformatics. 25, 1694-701.

161. Xu S., Z. F. Jia, C. Kang, et al. 2010. Upregulation of SEPT7 gene inhibits invasion of human glioma cells. Cancer Invest. 28, 248-58.

162. Yamanaka R. and H. Saya 2009. Molecularly targeted therapies for glioma. Ann Neurol. 66, 717-29.

163. Yang X., E. E. Schadt, S. Wang, et al. 2006. Tissue-specific expression and regulation of sexually dimorphic genes in mice. Genome Res. 16, 995-1004.

164. Yao L. and A. Rzhetsky 2008. Quantitative systems-level determinants of human genes targeted by successful drugs. Genome Res. 18, 206-13.

165. Yildirim M. А., К. I. Goh, M. E. Cusick, et al. 2007. Drug-target network. Nat Biotechnol. 25, 1119-26.

166. Zhang B. and Horvath 2005. A general framework for weighted gene co-expression network analysis. StatAppl Genet Mol Biol. 4, Articlel7.

167. Zhang J., R. P. Finney, R. J. Clifford, et al. 2005. Detecting false expression signals in high-density oligonucleotide arrays by an in silico approach. Genomics. 85, 297-308.

168. Zhang W., K. Murao, X. Zhang, et al. 2010. Resveratrol represses YKL-40 expression in human glioma U87 cells. BMC Cancer. 10, 593.

169. Ивлиев A. E., В. А. Руднева and M. Г. Сергеева 2010. Применимость анализа сетей коэкспрессии генов к поиску мишеней противоопухолевых лекарств. Молекулярная Биология. 44, 366-74.

Информация о работе

Ивлиев, Александр Евгеньевич
кандидата биологических наук
Москва, 2011
ВАК 03.01.09

Диссертация

Анализ генных сетей коэкспрессии для изучения транскриптома опухолей мозга и предсказания функций генов - тема диссертации по биологии, скачайте бесплатно

Автореферат

Похожие работы