Бесплатный автореферат и диссертация по биологии на тему
Полногеномный компьютерный анализ распределения сайтов связывания транскрипционных факторов эукариот по данным иммунопреципитации хроматина и высокопроизводительного секвенирования
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Полногеномный компьютерный анализ распределения сайтов связывания транскрипционных факторов эукариот по данным иммунопреципитации хроматина и высокопроизводительного секвенирования"

На правах рукописи

ИОЛНОГЕНОМНЫЙ КОМПЬЮТЕРНЫЙ АНАЛИЗ РАСПРЕДЕЛЕНИЯ САЙТОВ СВЯЗЫВАНИЯ ТРАНС1ШШЦИОИНЫХ ФАКТОРОВ ЭУКАРИОТПО ДАННЫМ ИММУНОПРЩШШГАЦИИ ХРОМАТИНА И ВЫСОКОПРОШВОДИТЕЛЬНОГО СЕКВЕНИРОВАБИЯ

03.01.09 - Математическая биология, бшлшформ-.гшка

АВТОРЕФЕРАТ диссертш ши на соискание ученой степени доктора биологических наук

Новосибирск 2014

9 ОКТ 2014

005553164

Работа выполнена в лаборатории эволюционной биоинформатики и теоретической генегаки ФГБУН Инстшуг цитологии и генетики Сибирского отделения РАН, г. Новосибирск

Научный консультант: Колчанов Николай Александрович

академик РАН, профессор

Официальные оппоненты: Макеев Всеволод Юрьевич

Доктор физико-математических наук, зав. лабораторией системной биологии и вычислительной генетики. Федеральное государственное бюджетов учреждение науки Институт общей генетики РАН им. Н.И. Вавилова, г. Москва

Омельянчук Леонид Владимирович

Доктор биологических наук, зав. лабораторией генетики клеточного цикла. Федеральное государственное бюджетное учреждение науки Инстшуг молекулярной и клеточной биологии СО РАН, г. Новосибирск

Самсонова Мария Георгиевна

Доктор биолотмчсских наук. зав. отделом компьютерной биологии ценгра перспективных исследований. Санкг-Петербургский государственный политехнический университет, г. Санкт-Петербург

Ведущая организация: ФГБУН Российской академии паук Ценш "Биоинженерия" РАН, г.Москва.

Защита диссертации состоится «26» ноября 2014 г. на утреннем заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук, на соискание ученой степени кандидата наук (Д 003.011.01) при Инстшуге цитологии и генетики СО РАН в конференц-зале по адресу: 630090, г. Новосибирск, проспект Лаврентьева, 10. Факс (383)333-12-78; e-mail: dissov@bionetnsc.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН, и на сайте Института: www.bionet.nsc.ru Автореферат разослан «19» сагтябоя 2014 г.

Ученый секретарь диссертационного совета, доктор биологических наук

Г.М. Хлебодарова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Начало XXI века ознаменовано значительными достижениями в молекулярной биологии и генетике, связанными с качественно новыми, полногеномными исследованиями. Создание выгакопроизводигезгыгых методов секвенирования ДНК, измерения экспрессии генов привело к лавинообразному росту объема информации как о полных последовательностях геномов эукариот, так и о последовательностях регулягорных районов генов и о динамике экспрессии геноа Исследование регуляции экспрессии генов эукариот в маштгабе генома требует изучения сайтов связьгвания транскрипционных факторов (ССТФ), контролирующих транскришуоо генов, усганоаления их геномной локализации и опрела1 кл(ия генов-мишеией.

До 2005 года основным экспериментальными методами исследования ССТФ были футргаггинг ДНК, метода вдзтхи (ретардации) в гае, ориентированные на выявление отдельных сайтов в конкретных регулягорных районах, которые не могли применяться для выявления всех сайтов связывания транскрипционного фактора в масштабе полного генома из-за чрезмерной трудоемкости и стоимости таких исследовании.

Благодаря технологиям вьгоокопроизводиге.ч1.ного секвенирования и метода,!, основанным на иммунопрегзипшщии хроматина (ChIP - Chromatin ImmunoPreciphaíiai), таким как ChlP-seq, ChIP-PET, ChIP-chip, появились огромные массивы качественно новых данных, позволяю! цих оценивать регуляторный потенциал геномов - выявлять сайгы связьгвания транскрипционных факторов в полных геномах. Технологии а'шгонуклееггидных микрочипов высокой плотности гг методы высокотгрогаю.щпельного секвенирования транофиптомов (RNA-seq) открыли возможность идешифшеации групп iuiob, меняющих экспрессию в ответ на воздействие транскрипционных фзкгоров и установление регулягорных взаимосвязей.

Исследование структуры хромапии на уровне отдельных нуклеосом (метилирование и адаптирование определенных аминокислотных остатков гисгонов в составе нукяеосомы) с помощыо технологий ChlP-seq качественно дополняет описание регулягорных районов генов в масштабе генома. Появились экспернмешальные данные о роли трехмерной организации хромосом в регуляции экспрессии генов (удаленные энхансеры, пространственные домены), полученные с помощью технологий как ЗС (Chromosome Conformation Capture - определение стругауры хромосомы), СЫА-РЕТ (Chromatin Interaction

Analysis by Paired-End-Tag sequencing - анализ контактов хроматина с помощью секвенирования парных концов) и Hi-C (Бапулин и др., 2012; Li et al., 2012). Использование технологии ChIA-PET, также как и ChlP-seq, основанной на иммунопрецишпации хроматина и секвенировании, позволяет экспериментально определять не только сайты связывания, но и физические контакты между удаленными районами хромосом, опосредованные белковыми комплексами. Перечисленные выше подходы ChlP-seq, СЫР-РЕГГ, СЫА-РЕТ, использующие высокопроизводительное секвенировэние, порождают огромные объёмы экспериментальных данных и требуют разработки новых методов их компьютерного анализа для определения сайтов связывания транскрипционных факторов и участков модификаций хроматина, регулирующих экспрессию генов эукариог. Встает задача компьютерного описания всех ССТФ в геноме, анализа их распределения и аннотации с использованием гетерогенных информационных ресурсов по организации геномов эукариог, включая ингегрировагшые среды хранения данных ChlP-seq, репозтпарии эксперимагтальных данных и визуализации геномной информации (Gene Expression Atlas, Ensembl, UCSC Genome Browser, GEO NCBI, ENCODE).

Отмстим две актуальные задачи, в которых методы полногеномното компьютерного анализа находят большое применение. Прежде всего, зто изучение транскрипционных факторов, раугструющих гены, вовлеченные в процессы канцерогенеза. Компьютерное исследование полногеномното распределения сайтов связывания таких транскрипционных факторов имеет большое значения для поиска их генов-мишеней как маркеров для диагностики. Изучение генов-мишеней онкогенов MYC (Zeller et al., 2006) и транскрипционного фактора - рецептора эстрогенов ERa (Fullwood et aL, 2009; Joseph et al., 2010) в геноме человека важно для понимания молекулярных механизмов развития онкологических заболеваний, поиска новых способов их диагностики и лечения.

Вторая актуальная задана - изучение механизме» транскрипционной регуляции генов, обеспечивающих поддержание плюршюгенгного состояния стволовых клеток, - имеет большое значение для исследования механизмов репрограммирования стволовых клеток (Chen et al, 2008; Yuan et al., 2009; Heng et al., 2010; Chia et al, 2010; Орлов и др, 2012). Эта задача включает определение полногеномных карг сайтов связывания регуляторов плюрипотенгносги -транскрипционныхфакторовNANOG,ОСТ4, SOX2, KLF4, PRDM14в эмбриональных сгвсшовых клетках (ЭСК). Один из ключевых подходов к решению згой

задачи - полногеномныи компьютерный анатш распределения ССГФ в геномах на основе данных СЫР-ье^

Представляемая диссертационная рабша посвящена применению современных компыоггерных методов анализа регуляции транскрипции эукхрюг с использованием данных экспериментов высокопрошводигельного секвенировання и иммунопреципитации хроматна

Цель и задачи исследования. Цель работ - компьютерная реконструкция структуры раулягорных районов, кюнгралирутощих трана.рипцию генов чу карий г на основе аначиза данных о положении сайтов связывания 1ранскрипцнонных факторов в геноме, полученных с помощью технологии иимупопрециптпттции хромаптна и высокопроизводщелыюго секвестрования (СЫР-эо}).

Для досптжештя этой цели решались следующие зздачи:

1. Разработка методов анализа данных секвестрования СЫРхх) и создание сгаисшчажой моде-ти полногеномного распределения сайтов связывания транскрипционных факторов (ССТФ).

2. Компыотерная реконструкция полногеномных кдрг сайтов связываштя транскрипционных факторов с-Мус, Оа4, N3.10^ 5>ох2, Е2П, п-Мус, ТЬхЗ, Ече1, №5а2 и 8гллс!2 в геноме мыши. Реконструкция распределения сайтов связывага« транскрипционных факторов МУС, РШ5М14, ЕЯо, ГОХА1, ОСГ4, КАМШ шеноме человека.

3. Компьютерное исследование ассоциации сайтов связывания трцнскрипцношют фактора Ша с огредегаэтными с помощью технологии ШР-яец маркерами хроматина, в часптосга, модификациями пкгона Ш (НЗК4теЗ, 1БК4те1, НЗК27шеЗ, НЗК9шеЗ, НЖ'Ак, НЗК 14ас), и создание метода предоплат 1ия сайтов связывания транскрипционного фактора Г-'Ка в гаюме человека на основе профилей модификаций п клонов.

4. Изучение рати хромосомных ксягтактов в регуляции транскрипции генов человека на моделях РНК-полимеразы 11 и транскрипционного фактора ЕКге на основе компьютерного анализа полногеномных данных СЫР-яец и СЫЛ-РЕТ.

Методические задачи, рялавшиеся в диссергацтти, включа>ш: разргйитку и компьютерную реализацию на языках С++ и И: (1) алгоритмов аиалюа полногаюмных профилей связывания транскрипционных факторов СЫР-веч; (2) алгортггмов анализа нуклеотадных посяедовагаилостей регулягоркых районов, формируе^тх ССТФ;

(3) алгоритма анализа полноты эксперимент ChIP-seq и ChIP-PET; (4) алгоритма определения кластеров ССГФ в геноме: (5) программ обработай данных экспрессии генов на микрочипах; (6) программ интеграции данных геномной аннотации расположения генов и профилей ChIP-seq; (7) программ анализа профилем ChIA-PET и ChIP-seq.

В качестве экспериментальной информации, которая была проанализирована с помощью компьютерных методов, разработанных автором диссертации, использовались данные, полученные соавторами научных публикаций NgH.H., Kong S. Joseph R, Liu E.T., Ruan Y., Wei Cl-, Lee KJL, Clarke N. с помощью методов секвенирования ДНК в Геномном инсттуге Сингапура, а также публично доступные данные секвенирования из GEO NCBI. Автор диссертации выражает своим коллегам благодарность за предоставление этих д анных.

Научная новизна. Разработаны оригинальные компьютерные методы анализа распределения сайтов связывания транскрипционных факторов в геноме на основе данных ChIP-seq (Kuznetsov et al., 2007; Orlov et al, 2012). С помощью этих программ построены карты связывания транскрипционных факторов с-Мус, Oct4, Nanog, Sox2, E2fl, n-Мус, ТЬхЗ, Eset, №5a2, Smad2 в геноме мьшш (Chen et al, 2008; Yuan et al, 2009; Han et al, 2010), фактора Zic3 в геноме рыбы Daub rerio (Winata et al, 2013), транскрипционных факторов MYC (Zeller et al, 2006), ERa, FOXAl (Joseph et al, 2010), PRDM14 в геноме человека (Chia et al, 2010). Представленные карты ССГФ были получены впервые.

Компьютерные программы интеграции данных о геномной локализации указанных выше ССТФ и уровнях экспрессии генов, измеренных с помощью ммфочипов, позволили получить новые данные о регуляции транскрипции генов (Chen et al, 2008; Orlov et al, 2012; Орлов и др., 2012). Разработанная компьютерная база данных наборов проб микрочипов платформы Aflymetrix U133 была новой на момент публикации (Orlov et al, 2007), и использовалась для анализа присутствии транскриптов в цис-антисенс ориентации (Grinehuk et al, 2010).

Компьютерный анаши по данным ChIP-seq впервые показал статистически значимую совместную локализацию сайтов связывания транскрипционных факторов Oct4, SoxZ Nanog, с одной стороны и с-Мус, n-Мус с другой, в эмбриональных стволовых клетках (ЗСК) мыши (Chen et al, 2008; Han et al, 2010; Heng et al, 2010).

Впервые рассчитана совместная локализация сайтов связывания транафипционных факторов плюрипогетности в геномах мыши и человека в форме маариц сближенности

ССТФ (Heng et al., 2010). Определен новый нуклесгщдный мотив сайга связывания транскрипционного фактора PRDM14 в геноме человека (Chia et al., 2010).

Впервые построен компьютерный метод предсказания сайтов связывания ТФ ERa в масштабе генома на основе профилей модификации хроматина - ацегалирования и метилирования гистонаНЗ (H3K4me3, H3K4mel, H3K27me3, ШК9шеЗ, НЗК9ас, НЗК14ас), определенных с помощью технологии ChlP-seq в клеточных линиях MCF-7 и T47D (Joseph et al., 2010). С помощью разработанных автором компьютерных программ впервые совместно с данными ChlP-seq проанализированы карты хромосомных контактов, опосредованных связыванием белка рецептора эстрогенов ERa (Fullwood et al., 2009), подученные посредством технологии ChlA-PET.

Впервые на основе компьютерного анализа полногеномных данных о хромосомных контактах, опосредованных комплексами РНК-пояимеразы П, данных транскрипционной активности генов, и профилей модификаций гисгонов для пяти клеточных линий в геноме человека (Li et al., 2012) показана положительная корреляция участков хромосомных контактов с модификациями гисгонов, характеризующими открытое состояние хроматина (H3K4me3, НЗК9ас, НЗК4те1).

Теоретическая значимость работы. Разработана компьютерная статистическая модель распределения сайтов связывания транскрипционных факторов, позволяющая достоверно определять локализацию ССТФ в геноме и оценивать полноту эксперимента по координатам секвенированных прочтений ChlP-seq.

Построена компьютерная модель, обеспечивающая высокую точность предсказания локализации сайтов связывания транскрипционного фактора - рецептора эстрогенов ERa в геноме человека за счет одновременного анализа, как нуклеогидных последовательностей, так и профилей модификаций хроматина (ацегилирования и метилирования гисгонов), рассчитанных по данным ChlP-seq.

Представлена компьютерная модель хромосомных петель регулягорных районов транскрипции в геноме человека, опосредованных комплексом РНК-пслимеразы II, основанная на данных ChlA-PET.

Научно-практическая ценность разработанных компьютерных методов состоит в возможности поиска регулягорных районов генов по данным секвенирования в масштабе полного генома эукариог. Программный комплекс ICGenomics (httpy/www-

Ьюпе155ссл1ЛсаепогпкзЛ для функциональной аннотации геномных последовательностей обеспечивает существенное расширение методов компьютерного анализа полногеномных данных. Созданы база данных качества наборов проб микрочипов АНутейтх 1ЛЗЗ (Ог1оу й а1, 2007а; 2007Ь), база цис-ангасенс транофипгов в геноме человека (ОппсЬик ег а1., 2010) и база данных экспрессии генов на микрочипах для крыс КаНЖА. (http://pixie.bionetnsc.ru/ га1с1па/га1Утёех.рЬр; свидетельство госрегистрации №621051 от 10.10.2012г).

По тематике исследования выполнены госкошраюы Министерства образования и пауки РФ на разработку программного обеспечения для геномных исследований (№07.514.11.4003 «Разработка алгоритмов и программных систем для решения задач анализа последовательностей, возникающих в теоретической и прикладной геномике», № 16.513.12.3107 «Проведение проблемно-ориентированных поисковых исследований в области ДНК-чипов в рамках технологической платформы «Медицина будущего»», № 16.512.11.2274 «Проведение проблемно-ориентированных поисковых исследований по тематике технологической платформы "Медицина будущего" в области поиска молекулярных мишеней онкологических заболеваний с помощью биоинформационных и постгеномных технологий»), граты РФФИ (№№11-04-01771, 11-04-01888, 11-04-92712-ИНД_а, 12-04-00897), Интеграционные проеюы СО РАН (№119, 136), проект №8740 Минобрнауки России «Интегрированная биоинформационная платформа анализа данных экспрессии генов в тканях мозга». Продолжается работа по грантам РФФИ № 14-04-01906 и РНФ№ 14-14-00269.

Положения, выносимые на защиту.

1) Разработанная сгашсшческая модель палногеномного распределения сайтов связывания транскрипционного фактора позволяет оценивал» полноту эксперимента по секвенированию и иммунопреципигации хроматина СЫР-вед и рассчшывап> статистически значимые оценки нижней и верхней границ общего числа сайтов связывания в геноме для исследуемого фактора.

2) Полногеномные карты сайтов связывания транскрипционных факторов в эмбриональных стволовых клетках, построенные по данным СЫР-вея для с-Мус, Ой4, Ыапо^ &>х2, Е2П, п-Мус, ТЬхЗ, Еве!, №5а2, 8та(32 в геноме мыши свидетельствуют о совместной локализации групп сайтов связывания транскрипционных факторов СКЛ4,5>ох2,

Nanog, с одной стороны, и с-Мус, n-Мус с другой.

3) Нуклесггидные последователи юсги, окружающие сайты связывания транскрипционного фактора Smad2 в геноме мыши, содержат специфические группы нуклеощдных мотивов, соответствующих потенциальным сайгам связывания других транскрипционных факторов. Эта мотивы различаются доя сайтов связывания Smad2, найденных в эмбриональных стволовых клетках мыши при действии внешних факторов -белка Activin и ингибитора SB431542, соответственно.

4) Расположение сайтов связывания транскрипционного фактора ERa в геноме человека положительно ассоциировано с районами метилирования и ацепширования гисгонов нуклеосом H3K4me3, НЗК4те1, НЗК9ас и НЗК14ас. Разработан компьютерный алгортм для предсказания сайтов связывания ERa в геноме по ChlP-seq маркерам состояния хроматина; показана высокая точность предсказания с помощью згой модели.

5) Геномные области хромосомных контактов, опосредованных комплексом РНК-полимеразы П, обогащены сайгами связывания транскрипционных факторов и участками модификаций гисгонов, связанными с акшвацией экспрессии генов.

Личный вклад автора. Все представленные в диссертации результаты получены лично автором. Публикации, представленные в данной работе, были написаны в соавторстве. Рель автора в статьях, где он не являлся первым автором или автором для переписки, обозначена как «компьютерный и теоретический анализ данных, статистическая обработка». Для получения результатов, представленных в диссертации, автором были разработаны алгортмы и компьютерные программы анализа данных ChlP-seq, статистического моделирования, сравнения геномных координат и геномной аннотации, оценки качества наборов проб микрочипов, анализа нуклеотидных контекстов, компьютерной симуляции полногеномных данных ChlP-PET, ChlP-seq и ChlA-PET.

Методика анализа полноты экшеримяпа ChlP-seq представлена в работе (Orlov et aL, 2009), компьютерные программы, разработанные автором, и их применения описаны в работах (Orlov et aL, 2012; Kuznetsov, Orlov et aL, 2007; Орлов и соавг, 2012; Орлов, 2014). В статье (Joseph, Orlov et aL, 2010) посвященной исследованию сайтов связывания транскрипционного фактора ERa в геноме человека автор диссертации является автором доя переписки.

Основные результаты применения разработанных компьютерных методов для анализа распределений сайтов связывания транскрипционных факторов представлены в

статьях, написанных в соавторстве. В статьях (Chen,... Orlov et al., 2008) и (Han,... Orlov et al, 2010) автор диссертации выполнил компьютерный анализ данных и оценил полноту эксперимента ChIP-seq в ЭСК мыши. Программа анализа профиля ChIP-seq, разработанная автором, использовалась в исследованиях транскрипционных факторов, опубликованных в статьях (Yuan,... Orlov et al, 2009; Heng,... Orlov et al, 2010; Lee,... Orlov et al, 2011). В статье (Chía, ... Orlov et al, 2010) автором диссертации выполнен анализ ССТФ PRDM14 и компьютерная реконструкция генных сетей плюрипогетности в ЭСК человека. В статье (Zhao,.. .Orlov et al, 2007) с помощью разработанных компьютерных моделей исследованы полногеномные данные модификаций гисгонов НЗК4теЗ и НЗК27теЗ. Обобщение анализа распределений ССТФ в ЭСК человека и мыши дано в статье (Heng, Orlov, Ng, 2010). В статье (Winala,... Orlov et al, 2013) представлено применение разработанных автором программ для анализа ССТФ в геноме D.rerio. Публикация (Zeller, ... Orlov et al, 2006) показывает применение компьютерных моделей анализа эксперимента ChIP-PET для ТФ с-Мус. В работе (Goh, Orlov et al. 2010) с помощью разработанной автором компьютерной программы исследован профиль плотности нуклеосом в геноме дрожжей. В статьях (Fullwood,... Orlov et al, 2009) и (Li, ..., Orlov et aL, 2012) вклад автора состоял в компьютерной обработке данных хромосомных контактов, полученных методом ChIA-PET.

Работы автора, приведенные в списке литературы и не перечисленные выше, носили методический характер, и относились к применениям разработанных алгоритмов (Орлов и соавг. 2006; Воробьева..., Орлов и соавт. 2005; Orlov et aL. 2006; Guo,... Orlov et aL, 2010; Путга, Орлов и соавт, 2011), исследованию экспрессии генов на микрочипах: (Orlov et al. 2007а; Orlov et al, 2007b; Орлов и соавт, 2011; Кожевникова, ... Орлов, 2012; Kozhevnikova,... Orlovе1а!2013;Медведева,... Орлов,2013).

Апробация работы. Реэульташ были представлены на Пятой, Шестой, Седьмой и Восьмой и Девятой Международных Конференциях по Биоинформашке и Регуляции Струкгуры Генома (BGRS'06, BGRS'08, BGRS\SB-2010, BGRSV3B-2012 и BGRS\SB-2014: Новосибирск, 2006, 2008, 2010, 2012 и 2014 гг.), конференциях HUGO (2008, Хайдарабад, Индия; 2010, Монпелье, Франция; 2013, Сингапур), Школе CSHL-UK - 2007 (Хинксгон, Великобритания), Конференции A-STAR 2010г. (Сингапур), Международном Симпозиуме по Биотехнологии (Москва, 2011), Школе по биоинформагике BREW-2011 (Tapiy, Эстония), конференциях Постгаюм-2011 (Новосибирск) и Постгеном-2012 (Казань), Конференции по

ингеграгавной биоинформашке Ю-2012 (Ханчжоу, Китай), Международном Семинаре по Системней биологии и медицине 8у5РаЙю-2012 (С.-Петербург), съезде-конференции ВОГиС-2013 (Новосибирск), МССМВ-2013 (Москва), конференции «Нейроинформашка-2014» (Москва).

Публикации. По теме диссертации опубликовано 33 печатные работы, из них 30 -статьи в научных изданиях (журналы по списку ВАК).

Структура и объем работы. Диссертация состоит из пяти глав - «Обзор литературы», «Модели распределения сайтов связывания транскрипционных факторов в геноме», «ЬСарпл сайтов связывания по данным СЫР-Бец», «Модификации хроматина и связывание транофипционных факторов по данным СМР-.чея», «Хромосомные контакты и регуляция транскрипции в геноме человека», и Приложения. Вторая глава описывает разработку методов компьютерного анализа данных СЫР-жя и анализа экспрессии генов. Третья, четвертая и пятая главы описывают применение разработанных средств для анализа ССГФ в ЭСК человека и мыши, построение пешногеномных карг этих факторов, анализ распределения сайтов связывания транскрипционного фактора - рецептора эстрогенов ЕИа. В четвертой главе анализ ССГФ рассмотрен в контексте струюуры хроматина и модификаций гисгонов, в пятой - с точки зрения хромосомных контактов. Объем диссертации составляет 364 машинописных страницы, включая 130 рисунков и 28 таблиц. Список литературы содержит 529 ссылок.

Обзор литературы (Глава 1) содержит информацию о современных исследованиях регулягорных районах транскрипции в геноме человека, включая определение сайтов связывания с помощью технологий иммунопреципитации хроматина (СЫР). Представлены исследования по регуляции экспрессии генов, связанных с образованием опухолей (ЬЖ1, МУС, ТР53), тканеспецифичной экспрессии в клеточных культурах. Описаны подходы к изучению эмбриональных стволовых клеток человека и мыши, показана роль транскрипционных факторов в поддержания плюрипотентносги и репрограммировании. Д ан обзор проблем исследования трехмерных контактов хромосом в ядре с помощью секвенирования (методы ЗС, Н-С и СЫА-РЕТ).

Глава 2 содержит описание компьютерных моделей распределения ССГФ в эукариопиеском геноме. Представлены алгоритмы анализа данных СЫР-жц и базы

микрочиповых данных, разработанные автором (Kuznetsov etal., 2007; Orlov et al., 2009).

Глава 3 посвящена применению разработанных автором программ к реконструкции карт сайтов связывания транскрипционных факторов, полученных по экспериментальным данным ChlP-seq (Zeller et aL, 2006; Chen et al, 2008; Yuan et al, 2009; Han et aL, 2010; Chia et aL, 2010; Lee et aL, 2011; Winata etal, 2013).

Глава 4 содержит описание применения разработанных компьютерных методов к исследованию нуклеосомной упаковки и модификаций хроматина в геноме человека, поученных с помощью ChlP-seq, анализ моделей сайтов связывания ERa (Fullwood et al, 2009; Joseph et al, 2010; Orlov et al, 2012; Орлов и др, 2012). Показано применение программ для анализа связывания транскрипционных факторов в геноме дрожжей (Goh et aL, 2010).

Глава 5 представляет исследование хромосомных контактов, полученных с помощью массового параллельного секвенирования в геноме человека по методу ChlA-PET для ERa и комплекса РНК-полимеразы П с помощью разработанных автором диссертации компьютерных программ (Fullwood et al, 2009; Li et aL, 2012; Бапулин и др, 2012).

В Приложении даны коды программ и схемы алгоритмов, таблицы, содержащие координаты сайтов в геноме, результат анализа кластеризации ССГФ, описание использованных компьютерных ресурсов.

Благодарности. Автор выражает глубокую признательность научному шнсультату академику РАН НА Ксотчанову, сотрудникам ИЦиГ СО РАН ДА Афонникову и ВА Иванисенко за поддержку и обсуждение научных результатов, В А Кузнецову и соавторам из Геномного Инсппута Сингапура за ночную дискуссию и техническую поддержку на ранних этапах работы.

Глава 2. МОДЕЛИ РАСПРЕДЕЛЕНИЯ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В ГЕНОМЕ

Базы данных и выборки геномных последовательностей. Использовались следующие данные: (1) первичные данные секвенирования участков ДНК, полученные методом ChIP-seq для факторов с-Мус, Oct4, Nanog, Sox2, E2fl, n-Myc, ТЬхЗ, Eset, Nr5a2, Smad2 в геноме мыши, транскрипционных факторов MYC, FOXA1, ERa, PRDM14 в геноме человека; (2)данные по экспрессии генов на микрочипах платформы Aíiymetrix U133 в опухолевых клетках человека; (3) данные геномной аннотации RefSeq, UCSC genes, GenBank, riiRNA, EST (http://genome.ucsc.edu); (4) данные секвенирования нуклеосомной ДНК для генома дрожжей S.cerevisiae. Использовались данные секвенирования, полученные в Геномном Институте Сингапура и представленные в GEO NCBI методами ChIP-PET (GSE18046 ERa человека), ChIP-seq и ChIA-PET. Исходные данные секвенирования ChIP-seq представлены архивами GSE11431 для факторов Nanog, Oct4, STAT3, Smadl, Sox2, Zfx, c-Myc, n-Myc, Klf4, Esrrb, Tcfcp211, Е2П, CTCF, рЗОО и Suzl2, GSE19219 для ТЬхЗ, GSE17439 и GSE17642 для Eset, GSE19019 для Nr5a2, GSE23581 для Smad2 ЭСК мыши, GSE26831 и GSE23893 для ERa человека (культуры клеток MCF-7), GSE22767 и GSE22792 для PRDM14 (ЭСК человека), GSE41458 для Zic3 рыбы D.rerio. Секвенирование нуклеосомной ДНК дрожжей S.cerevisiae представлено архивом GSE26392. Данные ChIA-PET представлены архивами GSE18046 для ТФ ERa, и GSE33664 - для РНК-псяимеразы П человека.

Алгоритмы анализа профилей связывания ChIP-seq в масштабе генома. Метод иммунопреципигации хроматина ChIP-seq основан на обработке клеток формальдегидом, вызывающим образование ковалетных сшивок между ДНК и белками. Хроматин дробится на отдельные фрагменты с помощью ультразвука; далее с помощью иммунопреципигации со специфическими ашигелами выделяются последовательности ДНК, физически связанные с исследуемым белком. На следующем этапе выполняется очистка ДНК с последующим секвенированием всего набора выделенных фрагментов на приборах массового параллельного секвенирования ДНК (по технологиям Roche 454, Illumina Solexa или SOLAD).

Первичные данные секвенирования ДНК (прочтения, или «риды» ChIP-seq, размером от 18 до 75 нутслеощдов) конвергируются в линейную каргу позиций прочтений по хромосомам в геноме, образуя профиль ChIP-seq связывания исследуемого белкового

фактора с ДНК (рис. 1). Алгоритм определения пиков полногеномного профиля, составленного из фрагментов ДНК, и статистического выделения значимых пиков, был реализован первоначально для метода ChlP-PET (здесь PET обозначает парные концы - Paired End Tags) (Zeller et al, 2006), и далее для метода ChlP-seq (Chen et al, 2008).

Дальнейшая модификация алгоритма поиска

>' ............. пиков была выполнена для метода СЫА-РЕТ

4"" < ........4-—

(Fullwood е1 а!, 2009), учитывающего уже не только

Односторонние фрагменты 25-35кт при

картировании увеличивают до 150-200НТ отдельные сайты, но и пары пространственно

чтобы получить перекрывающиеся пики

сближенных сайтов на хромосомах.

пик (piled stock) Координаты ChIP прочтений удлиняются на I I п Синглтон

I I (шум) размф фрагмента (150-200 нт), строится I □

ступенчатый профиль фрагментов наложенных друг сигнал на д]руга в геномных координатах. Затем

"V определяются пики такого геномного профиля. Пик

Общий размах профиля

Рис. 1. Определение кластера (пика) - наиболее высокая точка профиля, более вероятно сформированного односторонними СЫР содержащая сайг связывания транскрипционного фрагментами прочтений ДНК в фа1сгора (рИС., хромосомных координатах.

Задача определения сайтов связывания (набора неслучайных пиков в геноме) решается статистически с помощью сравнения экспериментально полученного распределения набора пиков по высоте с распределением, ожидаемым по случайным причинам (рис. 2). Автором предложен компьютерный алгоритм определения пиков профиля и их последующей фильтрации сгт «шума» и ошибок секвенирования. основанный на статистике распределения числа сайтов в геноме в зависимости от высоты пика ChIP-seq (Кигпе1зоу еИ а1, 2007; От1оу й а1, 2009).

Распределение вероятности наблюдения Ра1{Х=т) сайтов (пиков профиля) X фиксированной высоты т может быть представлено как взвешенная сумма специфического и неспецифического распределений

Р,1/1(Х=т)=а*Р^Х=т) + (1- а )*Р^(Х=т), (1)

где Рф - функция вероятности наблюдаемого распределения встречаемости СЫР пиков, Х-пики, «7=1,2,3,... - высота пика, Р^ - вероятность специфичных пиков, 0< а <1 - доля специфичных пиков в общем распределении пиков в геноме, Рт - вероятность

неспецифичных пиков (шумовой сигнал) в общем распределении пиков по профилю в геноме (Orlov et al., 2009).

♦ Наблюдаемые пики -О- Виртуальные пики

50 60 70 80 90 100 Высота пика (число фрагментов ДНК}

Слабый сигнал и шум

(пики высотой 2- 6) Порог (пики высотой 6,7,8 в Специфичные пики

зависимости отТФ при р<5%) Рис. 2. Распределение числа сайтов в геноме в зависимое™ от высоты пика ChlP-seq (для связывания

ТФ Nanog мыши) (Chen et al., 2008; Orlov et al., 2009).

На основе экспериментальных СЫР данных строится эмпирическая функция распределения пиков. Распределение числа специфичных пиков Psp в зависимости от их высоты может бьпъ оценено с помощью распределения Парего. начиная с большой высоты пика, где шумового сигнала уже нет (например, с т= 10 на рис. 2).

Неспецифичное распределение Рт может быть оценено с помощью компьютерной симуляции по появлению кластеров (пиков) при случайном (равномерном) распределении прочтений ДНК вдоль хромосомы (Kuznetsov et al., 2007).

Метод оценки полноты (насыщения) эксперимента ChlP-seq по определению ССТФ в масштабе генома основан на компьютерных симуляциях и экстраполировании числа определяемых пиков как функции числа прочтений ДНК (глубины секвенирования) в эксперименте (рис. 3) (Chen et al, 2008, Orlov et al, 2009).

На рисунке 3 представлен пример зависимости роста порогового значения высоты пика и числа специфичных пиков от числа прочтений (размера библиотеки ChlP-seq). Для компьютерной симуляции в качестве исходных данных использовались геномные координаты прочтений в эксперименте ChlP-seq. Заданная доля прочтений удалялась с помощью компьютерной программы, использующей генератор случайных чисел. Затем

выполнялся новый расчет пиков в геноме при уменьшенном размере библиотеки, и процедура повторялась итеративно (Chen et aL, 2008).

На каждом шаге рассчитывалось пороговое значение и число найденных пиков в геноме.

На рисунке 4 представлен расчет

предсказания общего числа сайтов в геноме (оценки верхней и нижней границ такого числа) для эксперимента ChEP-seq по связыванию ТФ Nanog с помощью экстраполяции объема данных секвенирования. При увеличении глубины секвенирования повышаются пороги распознавания, как на истинные пики, так и на ложные сайты.

Когда при

100000 600000 1250000 2500000 3750000 5000000 6250000 Размер библиотеки (число фрагментов ДНК) -о-Пороговоезначение высоты пика ♦ Число специфичныхпиков Рис. 3. Зависимость порогового значения высоты пика (ось У слева) и числа выявленных пиков (ось У справа) в геноме в зависимости ст глубины секвенирования в рассматриваемом эксперименте СМР-эея (ТФ Иатк^ мыши) (Шоу йа!., 2009).

Предсказанное

N'=11063

Предсказанное N"=10470

экстраполяции вперед число определяемых в геноме сайтов перестает расти, эксперимент СЫР-зея можно считать полным. Определение полноты выполненного эксперимента /(X) как пропорции числа

^ 0 2000000 4000000 6000000 8000000 10000000

Число ридов в библиотеке ChlP-seq " Макс. N" " Мин. N" Тренд для N'— Тренд для N"

Рис. 4. Анализ сатурации (полноты) определения ССГФ в геноме фактически найденных сайтов в заданном эксперименте ChlP-seq (Orlov et al, 2009). в геноме, определялось по

формуле:

ßX)=Bmax*X/(K+X) (2)

где Дип- - максимальное число сайтов (при насыщении эксперимента), К - константа

нормализации. Х- число прочтений (объем данных секвенирования).

Предложенный метод был применен для анализа 15 наборов экспериментов ChIP-seq в ЭСК мыши. Было показано, что 5-6 миллионов

Nlicleophosmln 1 (NPM1)

*chr5:170,748,159.170,748,244« ,

8Ь фрагментов уже достаточно, чтобы

ТСАООАОСССОСМССССТООСАО£ДС£1£еГгеССйО£12СТ

тсеоселоесАоеоосстстоеосестАСАТссосеАСтсАсс Рис. 5. Определение мотива связывания Мус в нуклеотццных последовательностях профиля СЫР-РЕГ. Показан известный сайг связывания в первом интроне гена №М1 (2е11еге1а1.,2006).

выявить все сайты с достаточной (90%-95%) точностью (Chen et al„ 2008).

Поиск мотивов сайтов связывания

в нуклеощцных последовательностях, соответствующих пикам профилей ChDP-seq, далее выполнялся с помощью собственных программ и с использованием программ MEME, Weeder, STAMP, баз данных TRANSFAC и JASPAR (рис. 5). Алгоритм определения генов-мишеней транскрипционных факторов по данным экспрессии генов на микрочипах, разработанный автором, был основан на определении расстояния от ССТФ до старта транскрипции ближайшего гена аннотированного в генома

Важным этапом предобработки данных экспрессии на микрочипах является проверка качества и фильтрация данных измерения сигнала Распространенная платформа микрочипов Affymetrix U133 имеет недостатки дизайна целевых (таргешых) последовательностей наборов проб, приводящие к систематическим ошибкам, как показано в (Orlov et al., 2007а; Orlov et al., 2007b). Для каждой целевой последовательности набора проб микрочипа Aflymetrix U133 автором было рассчитано пресечение с геномными повторами, аннотированными в RepBase, по семействам и типам (DNA, LTR, LINE, SINE включая MIR и Alu). Разработанные программы применялись для анализа сигнала проб на микрочипе на клинических выборках данных экспрессии генов в клетках опухолей молочной железы и глиом мозга. Показана статистически значимая ассоциация шумового сигнала экспрессии наборов проб микрочипа Asymetrix со сходством нуклеощцных последовательностей этих наборов проб к мобильным элементам генома человека (Orlov et al. 2007а; Орлов и др., 2011 ).

Глава 3. КАРТЫ САЙТОВ СВЯЗЫВАНИЯ ПО ДАННЫМ ChlP-seq

1

Nanog 5 kb

Tcf19 Cchcn

0ct4

L .

iSox2

A.

LKI14

км J. ,

i

ii

n-Myc

c-Myc

ii.it .4

L.J

Tcfcp2l1

Рис. 6. Профили связывания 13 различных транскрипционных факторов в геноме мыши для гена Pou5fl (Chen et al., 2008). По оси абсиисс - положение на хромосоме. По оси ординат - высота профиля ChlP-seq (число прочтений ДНК).

Распределение сайтов связывания транскрипционных факторов по данным ChlP-seq

исследовалось с помощью разработанных компьютерных программ определения пиков полногеномных профилей. На ЭСК мыши были проведены эксперименты ChlP-seq для ТФ Nanog, Oct4, Sox2. Klf4, Е2П, Esrrb, CTCF, n-Myc, c-Myc, Smadl, STAT3, Tcfcp211, Zfx, Suzl2, а также контрольное секвенирование (с бежом GFP) (Chen et al, 2008).

Показана возможность реконструкции ретулягорных контуров ТФ на основе расположения сайтов связывания в промоторах генов-мишеней и данных экспрессии генов на микрочипах. Установлено, что ключевые факторы плюрипотентносги Oct4, Nanog, Sox2 образуют тесно связанную регулягорную сеть (Chen et al., 2008).

Серия исследований ChlP-seq на том же типе клеток была продолжена экспериментами по определению сайтов связывания факторов Eset, Nr5a2, ТЬхЗ, Smad2. представленными в работах автора (Yuan et al, 2009; Hengetal, 2009; Han et al, 2010, Lee etal, 2011).

Используя данные ChlP-seq для профилей связывания ТФ в ЭСК мыши, далее исследовались локусы множественного связывания в геномных районах, размером до 500 нт (так называемые, множественные локусы регуляции транскрипции). Учитывая размер генома, число неперекрывающихся промоторных районов и размер сайга, рассчитано, что кластеры, состоящие из 4 и более сайтов, могут рассматриваться как неслучайные (р<0.01) (рис.7).

1000000

10000

1 -

' 0,01

—•—Наблюдаемое число -о-Ожидаемое (оценка)

9 10 11

1 2 3 4 5 6 7 8 Число сайтов в кластере

Рис. 7. Оценка встречаемости кластеров сайтов

связывания ТФ в геноме мыши (СЬеп й а!, 2008).

Расчет матрицы сближенности расположения сайтов в геноме, используемой для построения тепловой карты, проводился с помощью собственной компьютерной программы, последовательно рассчитывающей для каждых двух независимых экспериментов СЫР-seq число сайтов, расположенных друг сгт друга не более чем на 100 нт. Расчет таких кластеров сайтов связывания с помощью разработанной компьютерной программы позволяет численно оценить совместную локализацию регулягорных районов различных транскрипционных факторов в геноме.

Кластеризация сайтов

связывания различных факторов по

взаимному расположению (рис. 8) в

геноме мыши представлена на

термокарге (тепловой карте),

исходя из объединенных данных

нескольких экспериментов (Chen et

al., 2008; Yuan et aL, 2009; Heng et al,

2010; Han et al, 2010). Более яркий

цвет в ячейке термокарш

соответствует более частой

совместной локализации сайтов

_ . _ пары факторов, указанных справа и

Рис. 8. 1ермокарта ко-локализации ССТФ в геноме мыши,

от„ „ , ^ „ „ внизу для данной ячейки. Показана

включая сайты связывания факторов Oct4 - Nanog - Sox2 -

Klft, а также Nr5a2 (Yuan etal, 2009). ~ совместная локализация (ко-

локализация) сайтов связывания факторов, ответственных за поддержание плюрипотеншосш: выделен кластер, включающий ТФ из базового набора факторов репрограммирования Oct4-Nanog-Sox2-Klf4 (Chen et al.. 2008). Показана ко-локализация сайтов связывания факторов n-Myc, с-Мус, Zfx и Е2й

2 {¿{¿¿Sn^J3^ si,>NS ■ to Ш? SO

о С

tO <п

z

В дальнейшем программы обработки данных секвенирования СЫР-^ совершенствовались и были представлены в программном комплексе Ювепогшсз (Орлов и др, 2012; Ог1оу & а1, 2012), разработанном в ИЦиГ СО РАН. 2.0-1

1.5 1.0 0.5 О

<iiiiii»iiiiiiii»i

С-Э ьо

-— с*э ir : i— en ^

ПОЗИЦИЯ

Рис. 9. Определение мотива de novo для ССТФ PRDM14 (Cliia et al, 2010).

Геномные карпы сайтов связывания ТФ для генома человека были построены для транскрипционных факторов MYC, ERa, FOXA1, PRDM14 (рис. 9) в геноме человека с помощью собственных программ обработки ChIP-seq данных. Выполнена компьютерная интеграция карт связывания этих ТФ в промоторах генов с микрочиповыми данными экспрессии генов (СЫа et al, 2010; Joseph et al, 2010).

Анализ результатов параллельного скрининга нокаутов генов в культуре эмбриональных стволовых клеток человека Н1 позволил получить список генов, существенных для поддержания плюрипогентносги, включающий как маркерный ген POU5F1, так и HCFC1, TCL1A, ZSCAN10, ЛСЗ, NANOG и ZNF143, известные как существенные для ЭСК мыши (Chia et al, 2010).

Среди специфичных для ЭСК генов человека был найден PRDM14 -транскрипционный фактор,

регулирующий экспрессию ОСТ4. ChIP-seq эксперимент по определению сайтов связывания PRDM14 в геноме человека впервые позволил установить мотив связывания PRDM14 (рис. 9) и описать распределение сайтов связывания в геноме. Тепловая карга ко-„1 ' ¿ ' í локализации сайтов в геноме человека Рис. 10. Термокарга ко-локализации ССТФ в геноме (рис. 10) строилась тем же методом, человека, включая PRDM14 (СЫа et al, 2010). что и д ля сайтов в геноме мыши. Для

эмбриональных стволовых клеток человека показан тот же эффект ко-локализации

ключевых факторов плюрипотешносш. включающих набор OCT4-NANOG-SOX2, что и для ЭСК мыши (Chia et al.. 2010: Heng et al, 2010).

Компьютерный анализ показал совместную локализацию сайтов связывания PRDM14 с регулягорными районами транскрипционных факторов плюрипотешносш, формируемыми сайтами связывания ОСТ4, SOX2, NANOG (Chía et al, 2010)..

Дозовый эффекп связывания ТФ. Компьютерное исследование эффекта связывания ТФ в зависимости от дозы белка активатора Actívin. ингибитора SB431542. а также измерение экспрессии генов на микрочипах выполнялось для ССТФ Smad2 в ЭСК мыши (Lee et al, 2011). Для трех состояний обработки клеток в ЭСК мыши (после обработки активатором белком Actívin, растворителем DMSO и ингибитором SB431542) были доступны данные ChIP-seq по связыванию ДНК с белком Smad2, а также данные измерений уровней экспрессии генов на микрочипах. Для каждого состояния активации был построен свой профиль ChIP-seq, определены пики и определены гены-мишени по расположению относительно гена (рис. 11).

"75см

J_L

Рис. 11. Профили связывания Smad2 в трех условиях и поиск мотивов ССТФ в пике профиля ChIP-seq (Lee et al, 2011). Цветовые обозначения профилей ChIP-seq и пиков - активация белком акшвин Actívin (красный), нейтральная среда - DMSO (синий) и ингибитор SB431542 (зеленый). По оси абсиисс - положение профилей на хромосоме 17 мыши, по оси ординат - высота профиля ChIP-seq (число прочтений ДНК). На нижней панели показаны позиции выделенных сайтов Smad2.

В этом проведенном впервые компьютерном тройном сравнении ChIP-seq для одного ТФ выявлены разные группы сайтов связывания Smad2 и их гены-мишени (Lee et al, 2011). Показано, что увеличениеуменьшение уровня сигнала нодал/активин (Nodal/Activin) ведет к

транскрипционной регуляции специфических групп мишеней Smad2 в ЭСК мыши. С помощью компьютерного анализа нуклеотидных последовательностей в пиках профилей CIP-seq, гфоме мотива связывания Smad2, установлено присутствие вторичных мотивов других ТФ (ко-могивов). влияющих на выбор генов-мишеней Smad2 (Lee et al., 2011).

В целом, глава 3 содержит результаты применения разработанных компьютерных методов анализа профилей ChEP-seq к исследованию ССТФ в эмбриональных столовых клетках в геноме человека и в геноме мыши (Chen et al., 2008; Chia et al, 2010; Heng et al, 2010; Lee et al, 2011). Применение разработанных автором методов анализа данных ChlP-seq показано для транскрипционного фактора Zic3 для рыбы D.rerio (Winata et al, 2013). Для большинства исследованных транскрипционных факторов показана высокая доля сайтов связывания, расположенных в дисгальных регулягорных районах.

Глава 4. МОДИФИКАЦИИ ХРОМАТИНА И СВЯЗЫВАНИЕ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В ГЕНОМЕ ПО ДАННЫМ ChlP-seq

Связывание белковых

факторов транскрипции с ДНК определяется состоянием хроматина которое также можно исследовать в масштабе генома с помощью технологий иммунопреципитации хроматина и последующего компьютерного анализа Встает задача создания предсказательной компьютерной модели связывания с белком на основе маркеров состояния хроматина Эта задача решена на примере компьютерного анализа данных ChlP-seq для транскрипционного фактора - рецептора эстрогенов ERa и модификаций гистонов, также определенных с помощью ChlP-seq, в клеточных линиях MCF-7 и T47D (Joseph et al, 2010).

Для фактора ERa был определен нуклеошдный мотив и уточнена весовая матрица связывания (Joseph et al„ 2010). Показана корреляция между высотой пика геномного

Высота пика (ChlP-seq) Рис. 12. Экспериментальная проверка 81 сайга связывания ERa с помощью ChlP-qPCR (количественная ПЦР СЫР-фрагментов ДНК) (Joseph et al., 2010).

профиля ChIP-seq и силой связывания, измеренной для 81 сайга ERa с помощью ChIP-qPCR. в двойной логарифмической шкале (рис. 12), что подтверждает корректность теоретической модели распределения пиков. Линейный коэффициент корреляции составил 0.56 (уровень значимости Р=5.0Е-8). ранговый коэффициент корреляции Кецдалла 0.375 (Р=1.17Е-07).

Целью исследования было построение модели определения (предсказания) реально связанных сайтов в геноме в данном типе клеток, с помощью дополнительной геномной информации, используя аннотированные экспериментальные данные по состоянию хроматина (модификациям гисгонов). Использовались 4 типа метилирования гисгона НЗ (по позициям лизина) - H3K4mel, H3K4me3, НЗК9теЗ, НЗК27теЗ, и 2 типа модификаций ацетилирования - НЗК9ас, НЗК14ас (Joseph et al, 2010). Состояние доступности ДНК для белков может бьпь измерено с помощью метода FAIRE (Formaldehyde-Assisted Isolation of Regulatoiy Elements), оценивающего степень доступности ДНК для связывания с белками. Использовались данные нескольких независимых экспериментов ChIP-seq в двух условиях: в нейтральной среде и после обработки клеток эстрадиолом (Е2), активирующим экспрессию ERa. Показана статистическая обогащенность сайтами связывания ERa промоторов генов, увеличивающих экспрессию после обработки Е2 (Joseph et al, 2010).

Показана позитивная ассоциация участков открытого хроматина в геноме с сайтами связывания ERa (темные красные столбики для ChIP-seq маркеров модификаций гисгонов) (рис. 13). Статистическое подтверждение ассоциации между связыванием ТФ и изменением структуры хроматина (доступности) было получено для маркеров активации транскрипции (модификации лизина в соответствующих позициях гисгона НЗ: ацетилирование НЗК9ас, НЗК14ас. метилирование H3K4mel, H3K4me3). В то же время нет корреляции с модификациями НЗК9теЗ и НЗК27теЗ, соответствующими закрытому хроматину. Интенсивность связывания коррелирует и с профилем секвенирования модификаций хроматина в нейтральной среде до активации, и с профилем связывания

О растворитель

-Тятщ-

>•4/ /

маркеры активирования транскрипции маркеры репрессии

Рис. 13. Ранговый коэффициент корреляция профилей ChlP-seq присутствия модификаций хроматина со связыванием ERa в геноме человека (Joseph et al, 2010).

фактора FOXA1, который меняет состояние хроматина (Joseph et al, 2010).

Оценки зависимостей от состояния хроматина были использованы для создания модели предсказания сайтов связывания ERa в геноме, только по профилям модификаций гисгонов (рис. 14). По обучающей выборке сайтов связывания и «не-сайтов», т.е. участков, не имеющих сродства к ERa, и данным о состоянии хроматина по ChIP-seq была построена модель логистической регрессии для Рис. 14. Кривая ошибок (ROC) для предсказания предсказания связывания ERa. Точность сайтов связывания ERa в геноме человека по дюй модели оказалась достаточно высокой данным секвенирования модификаций гисгонов (до q 95 по площади под кривой ошибок ChIP-seq (Joseph et al, 2010). ROC-AUC) (рис. 14).

С помощью анализа данных ChIP-seq по связывания ERa в геноме дня культур клеток MCF-7 и T47D показана тканеспецифичность сайтов связывания этого транскрипционного фактора (Joseph et al, 2010).

В целом, глава 4 содержит описание применения разработанных компьютерных методов к исследованию модификаций хроматина в геноме, анализ моделей поиска и предсказания связывания для сайтов ERa, FOXA1 (Fullwood et al, 2009; Goh et al, 2010; Joseph et al, 2010; Orlov et al, 2012; Орлов и др., 2012).

Глава 5. ХЮМОСОМНЫЕ КОНТАКТЫ И РЕГУЛЯЦИЯ ТРАНСКРИПЦИИ В ГЕНОМЕ ЧЕЛОВЕКА

Проблема анализа трехмерной структуры генома активно исследуется в последние годы с помощью методов, основанных на секвенировании. Метод ChIA-РЕТ (Chromatin Interaction Analysis by Paired-End-Tag sequencing), использующий иммунопреципитацию хромашна позволяет определять контактирующие участки хромосом, контакты которых опосредованы белками или белковыми комплексами (Fullwood et al, 2009; Li et al, 2012).

0.8-

ï Об-

- Одна характеристика (H3K4met )

_Дее характеристики (H3K4me1-*ER)

_ Три хараетеристки

(H3K4me1 +ER+FOXA1) _ Четыре характеристики (H3K4me1+ER-»FOXA1»FflRE) Лучшая ко м6инаиия(НЗК4те1 + ER+FOXAI + RNAPoilf +НЗК9ас)

—г-

02

-1-г-

0« 06 1-слециф ичность

-т—

0 8

—г1

1.0

_ „ _ Лигирование

Секвенирование Последовательности ДНК, Разрезание ДНКвокруг линкера концов ДНК содержащиелинкеры ферментами рестрикции

Рис. 15. Схема метода СЫА-РЕТ (РЫЫ-осх! й а!., 2009). Синим, красным и зеленым цветом обозначены последовательное™ ДНК, контактирующие с белками, которые затем лигируклея. Парные концу вместе с линкером направляются на секвенирование.

В этом методе, так же как для СЫР^, сначала выполняется иммунопреципитация хроматиновых комплексов, связанных с исследуемым белком, затем фрагменты ДНК разделяются ультразвуком (рис. 15).

ДНК-белковые комплексы в клетках фиксируются формальдегидом

Иммунопреципитация специфичного белка

Добавление линкеров двух типов к ДНК

Фрагменты ДНК из разделенных ультразвуком, прошедших иммунопрецигштацию хроматиновых комплексов обрабатываются через лигирование линкеров (на свободные концы ДНК), получаются парные концы (PET). Затем выполняется разрезание ДНК вокруг связанных линкеров с помощью ферментов рестрикции. ДНК секвенируется с концов, образуя пары прочтений. Далее пары прочтений ДНК картируются на референсную последовательность генома, строится таблица парных контактов. Полученная таблица контактов (пар координат в геноме) обрабатывалась с помощью разработанной автором компьютерной программы, для выделения статистически значимых участков контактов, анализа пересечений координат с установленным ранее расположением ССТФ и районов модификаций хроматина

На следующем рисунке показана ассоциация контактирующих сайтов связывания ERa с комплексом РНК-полимеразы П, модификацией гистонов НЗК4теЗ и сайтами FOXA1. Сравнение полногеномных экспериментов, основанных на иммунопрециптации хроматина ChlP-PET, ChlP-seq и ChlA-PET для сайтов связывания ERa в культуре клеток

МСР-7 показало устойчивость определения сайтов с помощью этих технологий (ШКуоос! е1 а1,2009) (рис.16).

Сильные взаимодействия Умеренные взаимодействия Неконтактирующие сайты

48-8-4048-8 Расстояние от центра сайта, Кб Ряс. 16. Ассоциация сайтов связывания ERa, определенных с помощью ChIA-РЕТ (Fullwood et al.,

2009) различной интенсивное™ (три панели слева направо - от сильных взаимодействий до отсутствия контактов) с профилями РНК-полимеразы П, модификацией НЗК4теЗ (по данным QiIP-seq, левая ось Y) и сайгами FOXA1 (данные ChIP-on-chip, правая ось Y) (Fullwood et al., 2009).

Присутствие маркера открытого хроматина НЗК4теЗ для сайтов ERoc, определенных с помощью СЫР-seq, может использоваться для предсказания сайтов в геноме, также как и присутствие сигнала связывания FOXA 1 (Joseph et al., 2010).

-HCT116 -К562

-е- з

0 го Q. ГО

с о- 10000

Q)

° 1

1 I

-20К -10К Старт (ТСС) 3'конец 10К

Рис. 17. Профили связывания РНК-полимеразы П в экспериментах ChIA-PET относительно генов в культурах клеток человека НСТ116, К562, MCF-7, HeLa и NB4 (Li et al., 2012).

Профиль связывания РНК-полимеразы И (рис. 17) относительно генов (на основе аннотации баз данных RefSeq и UCSC genes) для экспериментов в культурах клеток человека построен по участкам связывания в геноме, определенных методом ChIA-PET (Li et al., 2012).

Гены в / петпях

Такое распределение с пиками в районе старта транскрипции и 3' района указывает на возможность образования петли между 5"- и 3'-районами гена Более того, несколько генов могут быть включены в петли хромосом, контактируя друг с другом промогорными районами, либо 3"-районами (рис. 18). Показана обогащенностъ контактирующих участков, опосредованных комплексом РНК-полимеразы П, сайгами связывания различных транскрипционных факторов, полученными в экспериментах СЫР-яе^

Классификация моделей промогорных, энхансерных и мультигенных контактов, опосредованных комплексом РНК-полимеразы П (1л е1 а1, 2012) приведена на рисунке 19.

Промоторная модель

Гены

Не контакта- уэпах рующи е гены (якоре)

Рис. 18. Модельная структура петель

хромосом, содержащих контактирующие

гены (ТиИхтоос! Й а1, 2009).

(1)

р э

сЬг20:29557829-29707828

20 КЬ

(2)

Одногенная модель (Промотор-Энхансер)

е Р 9

сЬгЭ: 109000000-112000000

400КЬ

Модели

хромосомных

петель,

содержащих

гены

(3)

Мультагенная модель (хромосомный оперон -

"сЬготорепоп")

р д р д

сИг2:220000000-220180000

25КЬ —

.-..— г-г—^^

-=5?

"р" - промотор, "д" - ген, и "е"-энхансер

Рис. 19. СЫА-РЕТ. Модели промсгторных (1), энхасерных (2) и мультигенных (3) хромосомных контактов, опосредованных комплексом РНК-полимеразы П (1л й а1, 2012).

Модель базального промотора включает только локальные петли ДНК в промоторе.

без удаленных взаимодействий. Одногенная модель включает только петли в районе гена между энхансером и промотором, возможно между 5' и 3' районами гена, но без других беяок-кодирующих генов. И наконец, мультигенная модель включает сразу несколько генов, расположенных рядом друг с другом и контактирующих промоторными районами. В этой модели также возможен контакт промоторов с удаленными энхансерами.

Как было показано в предыдущих главах работы, важнейшее значение для регуляции транскрипции генов имеют модификации хроматина, прежде всего гистона НЗ, модификации лизина в позициях 4, 9, 14. включающие метилирование и ацегилирования, связанные с доступностью ДНК для связывания белковых факторов транскрипции (Zhao et aL, 2007). Исследование контактов хромосом, опосредованных комплексом РНК-полимеразы П в культурах клеток человека, подтвердило ассоциацию контактирующих районов с такими маркерами модификаций хроматина (Li et al, 2012). На рисунке 20 показаны профили модификаций хроматина для участка хромосомы 2 человека, содержащий ген РСВР1.

•ЯГ рсвр1 -«ПГ.

RNA-Seq _А ......

RNAPII JU к i

400

so

Открытый хроматин

CHIA-PET

{

SI 5: !fS ^

200 30

70 30 20

H3K9ine3uii—A____________ i« .......... ■■ ...........^»■ ........' — ' - ■

НЗКЭас

H3K14ac_______

FAIRE-----

J_I

Закрытый хроматин

Рис. 20. Пример профилей СЫР-зец модификаций гистонов, соответствующих открытому и закрытому состоянию хроматина (группы показаны слева), в участках хромосомных контактов, найденных с помощью СЫА-РЕТ (отмечено внизу) е! а1, 2012).

Рисунок 20 показывает, что хроматин в контактирующих участках открыт: гисгоны имеют маркеры модификации активной транскрипции НЗК4теЗ, НЗК9ас (видны пики профиля); в то же время модификации репрессии транскрипции НЗК9птеЗ, НЗК27теЗ не имеют пиков (равномерный шум).

Более того, исследованные ассоциации хромосомных контактов, опосредованных

белком ERa, также связаны с активацией хроматина, в частности с модификацией НЗК4теЗ, как показано для генома человека методом ChIA-РЕТ (Full wood et aL, 2009).

В целом, Глава 5 представляет компьютерное исследование хромосомных контактов, полученных с помощью массового параллельного секвенирования в геноме человека по методу ChIA-РЕТ (Fullwood et aL, 2009; Li et al„ 2012; Бапулин и др., 2012). Показана ассоциация участков хромосомных контактов, опосредованных комплексом РНК-полимеразы II с сайгами связывания ТФ, определенными в экспериментах ChlP-seq (Li et al, 2012).

Заключение

В рамках диссертационной работы разработаны компьютерные программы анализа распределения сайтов связывания транскрипционных факторов в геноме на основе данных экспериментов по иммунопреципигации хромапша ChlP-seq, ChlP-chip, СЫР-РЕТ. Впервые представлена компьютерная модель оценки насыщения (полноты) эксперимента ChlP-seq с помощью симулирования распределения пиков в геноме и экстраполяции на большее число прочтений ДНК. Разработана компьютерная база данных качества проб на микрочипах Aflymetrix (Oriov et al, 2007a; Orlov et al, 2007b).

Обработан большой набор полногеномных карт связывания транстфипционных факторов, включая с-Мус, Oct4, Nanog, Sox2, E2fl, n-Myc, ТЬхЗ, Eset, Nr5a2, Smad2 в геноме мыши (Chen et al, 2008; Yuan et al, 2009; Han et al, 2010) и ССТФ MYC (Zeller et al, 2006), ERa (Joseph et al, 2010), PRDM14 в геноме человека (Chia et al, 2010). Показана кластеризация сайтов связывания транскрипционных факторов Oct4, Sox2, Nanog в геноме ЭСК мыши, подтвержденная последующими данными ChlP-seq, что свидетельствует о связности регулягорной сета поддержания плюрипотштосга (Chen et al, 2008; Han et al, 2010; Hengetal, 2010).

Компьютерное исследование ассоциации сайтов связывания ТФ ERa с модификациями гисгонов показало возможность точного полногеномного предсказания сайтов на основе данных ChlP-seq о модификациях хроматина (Joseph et al, 2010). Анализ полногеномных данных ChIA-РЕТ о хромосомных контактах, опосредованных ERa и комплексом РНК-псшимеразы П, позволил предложить мультигенную модель регуляции транскрипции, и статистически описать удаленные регулятор! ilic районы генов человека на хромосомах (Fullwood et al, 2009; Li et al, 2012).

Выводы

1) Впервые разработан подход для статистической оценки нижней и верхней границ общего числа сайтов связывания транскрипционных факторов в геноме мыши на основе анализа экспериментальных данных ChIP-seq. Этот подход дает возможность оценки качества экспериментов ChIP-seq для выявления сайтов связывания транскрипционных факторов при заданном объеме секвенирования и размере генома.

2) Разработаны компьютерные методы и программы для анализа данных по полногеномному секвенированию, сопряженному с иммунопреципигацией хромапша, получаемых в экспериментах ChIP-PET и ChIP-seq, и распознавания на этой основе сайтов связывания транскрипционных факторов в геномах человека, мыши, рыбы Danio rerío.

3) С помощью компьютерного анализа данных экспериментов ChIP-seq на эмбриональных стволовых клетках мыши впервые построена термокарга совместной локализации транскрипционных факторов Oct4, Nanog, Sox2, Klf4, ТЬхЗ, Eset, Nr5a2, Smad2 в геноме мыши. Показана совместная геномная локализация сайтов связывания транскрипционных факторов Oct4, Nanog, Sox2 и Klf4, относящихся к ключевым регуляторам плюрипогентносги.

4) Впервые по данным экспериментов ChIP-seq на эмбриональных стволовых клетках мыши определены группы сайтов связывания транскрипционного фактора Smad2 в условиях активации и подавления экспрессии гена Smad2 под действием внешних факторов - белка Actívin и ингибитора SB431542, соответственно. В геномном окружетши сайтов Smad2 найдены специфичные группы нуклеогидньгх мотивов, соответствующих потенциальным сайтам связывания других транскрипционных факторов.

5) На основе компьютерной модели эксперимента с последовательным подавлением транскрипции генов в эмбриональных стволовых клетках (ЭСК) человека показана роль транскрипционного фактора PRDM14 в поддержании плюрипогешносги. Для транскрипционного фактора PRDM14 по данным ChIP-seq найдены его гены-мишени в ЭСК человека, включающие ОСТ4. Впервые определена структура сайта связывания PRDM14.

6) С помощью компьютерного анализа данных экспериментов ChIP-seq в ЭСК человека построена термокарга расположения кластеров сайтов связывания для транскрипционных факторов ОСТ4, NANOG, SOX2 и PRDM 14 в геноме человека. Показано совместное геномное расположение сайтов связывания транскриттциошгых факторов ОСТ4,

NANOG, SOX2 в ЭСК человека, аналогичное расположению сайтов связывания их гомологов в ЭСК мыши.

7) Установлена положительная взаимосвязь (pO.OOl) между силой связывания транскрипционных факторов ERa и MYC, измеренной с помощью количесгеенной ПЦР, и числом прочтений ДНК в эксперимапах ю-мунопреципитации хроматина СЫР-РЕГ и СЫР-seq для транскрипционных факторов MYC и ERa, в культурах клеток опухолей человека Р493 и MCF-7, соответственно. Выявлены нуклеотдные мотивы транафипционных факторов, связывающихся в окрестностях сайтов ERa.

8) Рассчитаны позиции положения нуклеосом в геноме дрожжей на основе данных секвенирования защищенных нуклеосомой фрагментов ДНК. Показано, что сайты связывания транскрипционных факторов в промогорных районах генов дрожжей, определенные с помощью технологии ChlP-chip, свободны от нуклеосомной упаковки.

9) Показано, что присутствие маркеров открытого хроматина и маркеров модификаций гиегонов, в частности пиша НЗ (НЗК4теЗ, НЗК4те1, ШК9ас, НЗК14ас), оггределенных с помощью технологии ChlP-seq, позватяст предсказать с высокой точностью саГпы связывания транскрипционного фактора ERa в геноме человека

10) Впервые выполнен компьютерный анализ карг хромосомных контактов, опосредованных рецетиром тегрогаюв ERa и комплексом РНК-по.тмержгл II в геноме человека, полученных с помощью технологии секвенирования ChlA-PET. Представлена классификация групп i тагов, находчщихся в транскрипгщотгых доменах, в зависимости от структуры контактов (хромосомных петель). Показано присутствие в учаегкзх хромосомных контактов, опосредованных комплексом РНК-полимеразы II, сайтов связывания различных транскрипционных факторов, определенных с помгацью технологии ChlP-seq в геноме. Показана патожигельная корреляция участков хромосомных контактов с модификациями гистшоа, характеризующими открытое состояние храмапта (НЗК4теЗ, НЗК9ас, НЗК4те1).

Список основных публикаций по теме диссертации Статьи в научных журналах

1. Орлов ЮЛ, Левицкий В.Г, Смирнова О.Г, Подколодная O.A., Хтебодарова ТМ, Колчанов H.A. Статистический анализ последовательностей ДНК, содержащих сайты формирования нуклеосом // Биофизика.- 2006 - Т. 51. - С. 608-14.

2. Воробьева Н.В, Бшпуева Л.С, Орлов ЮЛ., Графодатский А.С., Колчанов НА. Ишсрстидалдьлые теломерные повторы, как маркеры эволюционных преобразований каржпипа млекопитающих: хромосома 2 человека ¡/Биофизика. - 2006. - Т. 51. - С. 602-7.

3. Orlov Y.L., Те Boekhors! R, Abnizova I.I. Statistical measures of the structure of genomic sequences: entropy, complexity, and position information // J Bioinform Comput Biol. -2006. - V.4. - P.523-36.

4. Zeller К.1., Zhao X., Lee C.W, Chiu K.P, Yao F, Yustein J.T., Ooi H.S, Orlov Y.L., Shahab A., Yong H.C., Fu Y, Weng Z, Kuznetsov V.A., Sung W.K., Ruan Y, Dang C.V., Wei C.L. Global mapping of c-Myc binding sites and target gene networks in human В cells //ProcNatlAcadSciUSA. -2006,-V. 103.-P. 17834-9.

5. Zhao XX), Han X., Chew J.L, Liu J, Chiu KJP, Choo A, Orlov Y.L, Sung W.K., Shahab A, Kuznetsov VA, Bourque G„ Oh S, Rian Y, Kg НЛ, Wei CL. Whole-genome mapping of histone 1В Lys4 and 27 trimethylations reveals distinct genomic compartments in human embryonic stem cells II Cell Stem Cell. - 2007. - V. I. - N. 3. - P.286-98.

6. Orlov Y.L., Zhou J., Lipovich L, Shahab A., Kuznetsov V.A. Quality assessment of the Affymetrix U133A&B probesets by target sequence mapping and expression data analysis H In Silica Biol. - 2007a. - V.7. - N. 3. - P.241 -60.

7. Kuznetsov V.A, Oriov Y.L., Wei C.L, Ruan Y. Computational analysis and modeling of genome-scale avidity distribution of transcription factor binding sites in chip-pet experiments // Genome Inform. - 2007. - V. 19. - P.83-94.

8. Chen X., Xu H, Yuan P, Fang F, Huss M, Vega V.B, Wong E, Orlov Y.L., Zhang W, Jiang J, Loh Y.H, Yeo H.C, Yeo Z.X, Narang V, Govindarajan K.R., Ixong В., Shahab A, Ruan Y, Bouique G„ Sung W.K., Clarke N.D., Wei C.L., Ng H.H. Integration of external signaling pathways with the core transcriptional network in embiyonic stem cells // Cell.-2m.-V. 133.-N. 6.-P. 1106-17.

9. Fullwood M.J, Liu M.H., Pan Y.F, Liu J, Xu I I, Mohamed Y.B, Orlov Y.L., Velkov S, Ho A, Mei P.H, Chew E.G., Huang P.Y, Welboren W.J, Han Y, Ooi H.S, Ariyaratne P.N., Vega V.B., Luo Y„ Tan P.Y, Choy P.Y., Wansa K.D, Zhao В., Lim K.S, Leow S.C, Yow J.S, Joseph R, Li H, Desai K.V, Thomsen J.S, Lee Y.K, Karutuii R.K, Herve T, Bourque G, Stunnenberg H.G, Ruan X, Cacheux-Ralaboul V, Sung W.K, Liu E.T, Wei C.L, Cheung E, Ruan Y. An oestrogen-receptor-alplia-bound human chromatin interactome // Nature. - 2009. - V. 462. - N. 7269. - P. 58-64.

10. Yuan P., Han J., Quo G., Orlov Y.L., Huss M., Loh Y.H., YawL.P., Robson P., Lim В., Ng H.H. Eset partners with Oct4 to restrict extraembryonic trophoblast lineage potential in embryonic stem cells // Genes Dev. - 2009. - V.23. -N. 21. - P. 2507-20.

1 l.Grinchuk O.V., Jenjaroenpun P., Orlov Y.L., Zhou J., Kuznetsov V.A. Integrative analysis of the human cis-antisense gene pairs, miRNAs and their transcription regulation patterns // Nucleic Acids Res. - 2010. - V. 38. - N. 2. - P. 534-47.

12.Heng J.C., Feng В., Han J., Jiang J., Kraus P., Ng J.K, Oriov Y.L., Huss M, Yang L„ Lufkin Т., Lim В., Ng H.H. The nuclear receptor Nr5a2 can replace Oct4 in the reprogramming of murine somatic cells to pluripotent cells // Cell Stem Cell. - 2010. - V. 6. -N. 2. -P. 167-74.

13.Han J., Yuan P., Yang H., Zhang J., Soh B.S., Li P., Lim S.L., Cao S„ Tay J., Orlov Y.L., Lufkin Т., Ng H.H., Tarn W.L., Lim В. ТЬхЗ improves the germ-line competency of induced pluripotent stem cells // Nature. - 2010. - V. 463. - N. 7284. - P. 1096-100.

14.Goh W.S., Orlov Y., Li J., Clarke N.D. Blurring of high-resolution data shows that the effect of intrinsic nucleosome occupancy on transcription factor binding is mostly regional, not local//PLoSComputBiol. -2010.- V. 6.-N. 1.-P. el000649.

15.Guo X., Popadin K.Y., Markuzon N.. Orlov YJL, Kravtsberg Y„ Krishnan K.J., Zsuika G„ Tumbull D.M., Kunz W.S., Khrapko K. Repeats, longevity and the sources of mtDNA deletions: evidence from 'deletional spectra' // Trends Genet - 2010. - V. 26. - N. 8. - P. 340-3.

16.Chia N.-Y., Chan Y.-S., Feng В., Lu X., Orlov Y.L., Moreau D„ Kumar P., Yang L„ Jiang J., Lau M.-S., Huss M„ Soh B.-S., Kraus B.-S., Lufkin Т., Lim В., Clarke N., Bard F., Ng H.H. A genome-wide RNAi screen identifies PRDM14 as a regulator of POU5F1 and human embryonic stem cell identity IINature. -2010. - V. 468. -N. 7321. - P. 316-20.

17. Heng J.C., Orlov Y.L., Ng H.H. Transcription Factors for the Modulation of Pkmpotency and Reprogramming // In: Cold Spring Harb Symp Quant Biol. - 2010. - V. 75. - P. 237-44.

18.Joseph R., Orlov Y.L., Huss M„ Sun W., Kong S.L., Ukil L„ Pan Y.F, Li G„ Lim M„ Thomsen J.S., Ruan Y., Clarke N.D., Prabhakar S., Cheung E., Liu E.T. Integrative model of genomic factors for determining binding site selection by estrogen receptor a. // Mol Syst Biol- 2010.-V. 6. - P.456.

19,Орлов lOJL, Ефимов BJSL, Орлова Н.Г. Стагисгические оценки экспрессии мобильных элеменгов в геноме человека на основе клинических данных экспрессионных микрочипов И Вавиповский журнал генетики и селекции. - 2011. -- Т. I5.-X2 2.-C. 327-339.

20.Lee JCL, Lim SJC, Oriov YJL, Yit le Y, Yang IL, Ang L.T, Poellinger L, Lim B. Graded Nodal/Activin signaling titrates cmvasion of quantitalive phospho-Smad2 levels into qualitative embiyonic stem cell fate decisions IIPLoSGenet. - 2011. - V. 7. - N. 6. - P. el 002130.

21.Пугга П, Орлов ЮЛ, Подколодный HJL, Мифа Ч.К. Относительно консервативные общие короткие последовательности в сайтах связывания транскрипционных факторов и миРНК //Вавиловский журнал генетики и селекции. - 20 И. - Т. 15. - № 4. - С. 750-756.

22. Li G, Ruan X., Auerbach R.K., Sandhu K.S, Zheng M, Wang P, Poh H.M., Goh Y„ Lim J., Zhang J., Sim H.S., Peh S.Q, Mulawadi F.H., Ong C.T, Oriov Y.L, Hong S, Zhang Z, Landt S, Raha D, Euskirchen G, Wei C.L., Ge W, Wang H, Davis C, Fisher-Aylor K.I, Moitazavi A, Gerstein M, Gingeras T, Wold B, Sun Y, Fullwood MJ, Cheung E, Liu E, Sung W.K, Snyder M., Ruan Y. Extensive promoter-centered chromatin interactions provide a topological basis for transcription regulation // Cell. - 2012. - V. 148. - N. 1 -2. - P.84-98.

23.Кожевникова O.C, Мартыщенко M.K, Генаев M.K, Корболина M.K, Муралева НА, Колосова НА, Орлов ЮЛ. RatDNA: база данных микрочиповых исследований на крысах для генов, ассоциированных с заболеваниями старения // Вавиловский журнал генетики и селекции. - 2012. -Т. 16. -№4/1. - С. 756-765.

24.Орлов ЮЛ., Братин А.О, Медведева И.В, Гунбин И.В, Деменков I1C, Вишневский О.В, Левицкий В.Г., Ощепков В.Г, Подколодный В.Г, Афокников В.Г, Гроссе И, Колчанов Н.А. ICGenomics: программный комплекс анализа символьных последовательностей геномики // Вавиловский журнал генетики и селекции. -2012.-Т. 16.-№4/1.-С. 732-741.

25,Orlov Y., Xu Н, Afonnikov D, Lim В, Heng J.C., Yuan P., Chen M, Yan J, Clarke N„ Orlova N, Huss M„ Gunbin K„ Podkolodnyy N, Ng H.H. Computer and Statistical Analysis of Transcription Factor Binding and Chromatin Modifications by ChlP-seq data in Embiyonic Stem Cell HJIntegr Bioinform. - 2012. - V.9. - N. 2. - P. 211.

26.Бапулин HP, Фишман B.C., Орлов ЮЛ., Мензоров А.Г, Афонников ДА, Серов ОЛ. ЗС-методы в исследованиях пространственной организации генома // Вавиловский журнач генетики и селетщи. - 2012. - Т. 16. - № 4/2. - С. 872-878.

27.Winata C.L, Kondiychyn I, Kumar V, Srinivasan K.G, Oriov Y.L., Ravishankar A, Prabkikar S, Stanton L.W, Korah V, Mathavan S. Genome-wide analysis reveals Zie3 interaction with distal regulatoiy elements of stage specific developmental genes in zebrafish И PLOS Genetics - 2013. - V. 9(10). - e 1003852.

28.KozhevnikovaO.S., Korbolina E.E., StefanovaNA., MuralevaNA, Orlov Y.L., Kolosova N.G. Association of AMD-like retinopathy development -with an Alzheimer's disease metabolic pathway in OXYS rats // Biogerontology. - 2013. - 14(6). - 753-62.

29.Медведева И.В., Вишневский O.B., Сафронова H.C., Кожевникова О.С., Генаев М.А., Кочетов А.В., Афонников ДА., Орлов ЮЛ. Компьютерный анализ данных экспрессии генов в клетках мозга, полученных с помощью микрочипов и высокопроизводительного секвенирования // Вавиловский журнал генетики и селекции. - 2013. - Т. 17. -№ 4/1. - С. 629-638.

30. Орлов Ю.Л. Компьютерное исследование регуляции транскрипции генов эукариот с помощью данных экспериментов секвенирования и иммунопреципитации хроматина // Вавиловский журнал генетики и селекции.-2014.-Т. 18. - № 1. -С. 193-206.

Статьи в сборниках

31. Orlov Y.L., Zhou J.T, Chen J, Shahab A, Kuznetsov VA АРМА Database for Afiymetrix target sequences mapping, quality assessment and expression data mining // In: Pattern Recognition in Bioinjbrmatics: secondIAPR international workshop, PRIB 2007 (J.C. Ragapakse, B. Schmidt and G. Volkeit, Eds), Springer-Verlag: Berlin-Heidelberg-2007b. P. 166-177.

32,OrIov Y.L., Huss M.E., Joseph R., Xu H, Vega V.B., Lee Y.K., C-oh W.S., Thomsen J.S., Cheung E.C., Clarke N.D., Ng H.H. Genome-wide statistical analysis of multiple transcription factor binding sites obtained by ChlP-seq technologies // In: Proceedings of the 16th ACM Workshop on Breaking Frontiers of Computational Biology (CompBio '09). ACM, New York, NY. - 2009. - P. 11 -18.

33.Kolchanov NA, Orlov Y.L. Introductory note for BGRS-2012 special issue // Journal of Bioinformatics and Computational Biolo&. -2013.-V. ll.-N. l.-P. 1302001.

Подписано к печати 01.072014 г.

Формат бумаги 60 х 901/16. Пег л. 2. Уч.шдл. 1,4

Тираж 110 экз. Заказ № 122.

Отпечатано на полиграфической базе ИЦиГ СО РАН 630090, Новосибирск, проспект академика Лаврентьева, 10.