Бесплатный автореферат и диссертация по биологии на тему
Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов
ВАК РФ 03.00.15, Генетика
Автореферат диссертации по теме "Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов"
На правах рукописи
ОРЛОВ Юрий Львович
АНАЛИЗ РЕГУЛЯТОРНЫХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ПОМОЩЬЮ КОМПЬЮТЕРНЫХ МЕТОДОВ ОЦЕНОК СЛОЖНОСТИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ
Генетика-03.00.15
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата биологических наук
Новосибирск 2004
Работа выполнена в лаборатории теоретической генетики Института цитологии и генетики СО РАН, г. Новосибирск
Научный руководитель: чл.-корр. РАН
Н.А. Колчанов,
Институт цитологии и генетики СО РАН, г. Новосибирск
Официальные оппоненты: доктор биологических наук
Л.В. Омельянчук,
Институт цитологии и генетики СО РАН, г. Новосибирск
доктор биологических наук Ю.М. Константинов, Сибирский институт физиологии и биохимии растений СО РАН, г. Иркутск
Ведущее учреждение: Институт молекулярной биологии
им. В.А.Энгельгардта РАН, г. Москва
Защита диссертации состоится Са^/^-зс^х- 2004 г. на
утреннем заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук (Д-003.011.01) в институте цитологии и генетики СО РАН в конференц-зале по адресу: 630090, г.Новосибирск, проспект Лаврентьева, 10. Факс (3832) 33-12-78; e-mail: dissov@bionet.nsc.ru
С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН
Автореферат разослан
Ученый секретарь диссертационного совета, доктор биологических наук
А.Д Груздев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Осуществление крупномасштабных проектов по расшифровке геномов человека, животных, растений, бактерий и вирусов привело к быстрому росту объема информации о нуклеотидных последовательностях. Огромное количество экспериментальных данных о последовательностях ДНК, накопленное в специализированных базах данных (Kolchanov et al., 2002, Kanehisa and Bork, 2003; Galperin, 2004), дает возможность получения качественно новых знаний о структуре и эволюции геномов. Анализ, накопление и обобщение знаний о структуре и функции генетических молекул относятся в наступившую пост-геномную эпоху к числу наиболее важных проблем молекулярной генетики. Огромное значение имеет привлечение современных компьютерных технологий, разработка математических алгоритмов и компьютерных программ анализа последовательностей генетических макромолекул -ДНК, РНК и белков.
Одной из ключевых проблем является анализ сложности генетических текстов с помощью математических оценок, учитывающих эволюционные ограничения на изменение последовательности ДНК. Не менее важна поблсма компьютерного исследования и поиска в геноме последовательностей, регулирующих экспрессию генов эукариот.
Для всестороннего исследования контекстной организации и количественного анализа сложности текста регуляторных последовательностей необходима разработка современных Интернет-доступных компьютерных программ. Актуальной становится обработка информации о последовательностях ДНК из наиболее полных на сегодняшний день молекулярно-биологических ресурсов (GenBank, EMBL), включая специализированные базы данных по регуляции генной экспрессии (TRRD, TRANSFAC, EPD).
Цели и задачи исследования. Цели исследования включали анатиз контекстной организации последовательностей геномной ДНК эукариот, связанных с регуляцией экспрессии генов—сайтов связывания транскрипционных факторов (ССТФ), промоторов, 5'-нетранслируемых последовательностей экзонов (5'-НШ); выявление фундаментальных контекстных свойств и комплексных сигналов, характеризующих промоторные районы генов эукариот; изучение структурной организации повторов и их связи с регуляторными районами в полных бактериальных геномах и хромосомах эукариот. Для достижения этих целей решались задачи: (1) компьютерного анализа нуклеотидных последовательностей сайтов связывания транскрипционных факторов и
регуляторных районов генов эукариот с помощью оценс»
<-••-4 «ОТЕКА
С. Петербург ОЭ gQtffawfe^f
комплексных закономерностей контекстной организации регуляторных последовательностей и промоторов эукариот и разработки компьютерных методов их распознавания; (3) анализа контекстной организации сайтов формирования нуклеосом; 4) поиска повторов в полных бактериальных геномах и хромосомах эукариот и анализа их структуры.
Методические задачи исследования включали разработку и компьютерную реализацию на языке С+ + алгоритмов контекстного анализа генетических текстов
Научная новизна. Предложен оригинальный метод распознавания функциональных районов на основе марковских моделей с переменной памятью. Показано статистически значимое различие сложности нуклеотидных последовательностей экзонов, интронов и регуляторных районоа Проведено сравнение встречаемости прямых, инвертированных и симметричных повторов в полных последовательностях бактериальных геномов и хромосом эукариот на наиболее полных данных, доступных на момент выполнения работы (релиз 34 ОепБапк КСБ1, 2003 г.). Найдены протяженные совершенные внутригеномные прямые и инвертированные повторы в 130 бактериальных геномах. Разработан метод компьютерного поиска закономерностей контекстной организации регуляторных последовательностей генов эукариот. Закономерности определяются в форме комплексных сигналов, состоящих из наборов олигонуклеотидов в 15-буквенном алфавите. Впервые найдены такие комплексные сигналы для промоторных последовательностей шести ткане- и функционально специфичных групп генов эукариот из базы данных ТКЯБ.
Практическая ценность разработанных методов состоит в возможности поиска регуляторных районов и предсказания структуры генов во вновь секвенированных последовательностях геномов. Программные комплексы Сотркх^у Ьэ\\Сотр1ехку
0^ttpУ/\w^\rngs.bionetJBCJu/rngs/pIшraшs/lo\v сотр1ехкуЛ и Ьгсотрскег ОшУАул^тю.Ьюп&шс.пУ^ для исследования
сложности нуклеотидых последовательностей и структуры повторов качественно дополняют существующие методы. Разработанное Интернет-доступное программное обеспечение позволяет получить разметку совершенных и несовершенных повторов максимальной длины в полных бактериальных геномах, с затратами времени, линейно зависящими от длины последовательности.
Апробация работы. Результаты были представлены на Конференции по индустриальной и прикладной математике ИМПРИМ-2000, Второй, Третьей и Четвертой Международных Конференциях по Биоинформатике и Регуляции Структуры Генома (Б0Е37000, БОКЗШ и Б0Е5'04: Новосибирск, 2000,2002 и
2004 гг.), Германской конференции по Биоинформатике (GCB'01, 2001 г., Брауншвейг, Германия), Международном совещании по процессингу и статистике геномных сигнатов (GENSIPS'2002, 2002 г., Рати, Северная Каролина, США), Ш съезде ВОГиС (2004 г., Москва).
Публикации. По теме диссертации опубликовано 27 печатных работ, из них 15 - в рецензируемых научных изданиях.
Структура и объем работы. Диссертация состоит из трех глав (Обзор литературы, Материалы и методы, Результаты и обсуждение) и Приложения. Объем диссертации составляет 158 машинописных страниц, включая 58 рисунков и 13 таблиц. Список литературы содержит 352 ссылки. Общий объем работы составляет 180 страниц.
Автор выражает глубокую признательность сотрудникам ИЦиГ СО РАН ВР. Левицкому, МА. Позднякову, МП. Пономаренко, О.В. Вишневскому и сотрудникам ИМ СО РАН ЕЕ. Витяеву, В Л. Потапову и В.Д. Гусеву за помощь в подготовке работы и обсуждение научных результатоа
МАТЕРИАЛЫ, МЕТОДЫ И АЛГОРИТМЫ
Базы данных и выборки геномных последовательностей.
Использовались следующие данные: (1) короткие последовательности ДНК, содержащие сайты связывания белковых транскрипционных факторов, донорные и акцепторные сайты сплайсинга; (2) протяженные последовательности ДНК геномов эукариот, содержащие: (а)регуляторные районы транскрипции, промоторы, энхансеры, (б) 5'-нетранслируемые последовательности мРНК, (в)экзоны и нитроны эукариот, (г) сайты формирования нуклеосом; (3) полные последовательности бактериальных геномов (130 геномов); (4) полные последовательности хромосом ряда геномов эукариот, включая все хромосомы генома человека (релиз 34, сборка 2003 г.), дрожжей S.cerevisiae и Spombe, растения Athalkma, атакже фрагменты хромосом нематоды и дрозофилы
В качестве источников информации использовались база данных регуляторных районов транскрипции эукариот TRRD, база данных промоторов эукариот EPD, база данных сайтов сплайсинга SpliceDB, база данных экзонов и интронов интрон-содержащих генов ЕГО, база данных нуклеотидных последовательностей GenBank. Дтя получения последовательностей полных бактериальных геномов и контигов хромосом человека использовались информационные ресурсы NCBI Европейского
института биоинформатики (EBI, http://www.eb!.ac.uk/).
Алгоритмы оценки сложности текста. В разработанных компьютерных
программах реализовано несколько групп оценок сложности генетических текстов (Qriov and Potapov, 2004):
1) Оценка числа операций, необходимых для сжатия текста алгоритмом Лемпеля и Зива, реализующего алгоритмический подход AJL Колмогорова к понятию сложности текста (оценка операционной сложности) (Gusev et al., 1991; 1999; 2002; Oriov etaly 2002).
2) Оценка лингвистической сложности текста как отношение числа всех встретившихся нуклеотидных слов к числу всех возможных слов в последовательности фиксированной длины (Troyanskaya etaL, 2002).
3) Оценки неравномерности нуклеотидного состава (Wootton and Fedeihen, 19%) и оценки эшропии олигонуклеотидов заданного порядка
Каждая оценка сложности текста учитывает определенные аспекты его структурной организации. Оценка сложности как неравномерности нуклеотидного составареализована по работе (Wootton andFedenhen, 1996):
CW^{\IN)logK(N\lf\ «,!), О)
i-i
здесь N- размер последовательности, ni - число встретившихся символов г'-го типа, М^Х, К—размер алфавита (К=4 для ДНК, К=20для аминокислот).
Поскольку логарифм берется по основанию К, значения ЭФОЙ оценки содержатся в интервале [0;1], также как и другие используемые оценки сложности,
Лингвистическая сложность CL определяется как отношение числа встретившихся в последовательности слов к максимально возможному числу слов для последовательности такой длины (Troyanskaya etal., 2002):
CL = (X V,)H± Утш,)- (2)
Здесь К,—число алигонуклеотидов длины /, т -максимальная длина слова, Ути,— максимально возможное число слов длины i в последовательности длины N. Этот параметр равен меньшему из двух чисел: числа всех возможных слов длины / - и числа слов, которые можно разместить в
последовательности даннойдлины- N-i+1,Т.е. V^,= l!Xm(K'^-i+l). (3)
Сложность по Лемпелю и Зиву CLZсоответствует числу выделяемых слов при сжатии текста алгоритмом Лемпеля и Зива Алгоритм выполняет последовательное (слева направо) разложение нуклеотидной последовательности на непересекающиеся слова (фрагменты), каждый из которых имеет свой "прообраз" - повтор максимально возможной длины в предшествующей части текста (Гусев и др., 1991; Gusev et al, 2002). Возможно использование всех видов повторов, включая комплементарные и повторы в обратном направлении. Схема порождения последовательности S по Лемпелю и Зиву (или сложностное
разложение) может быть представлена в виде конкатенации фрагментов:
H(S) =S[l:/i] S[/j+l: /J ...5[i,+l: /J ~ Sftn+l: N\, (4)
где 5[/k.|+l: /J — фрагмент, выделяемый на А:-м шаге, к=1^2...т, т~тц(Б) — число шагов процесса, N- длина последовательности.
Из всевозможных схем разложения S выбирается схема, минимальная по числу шагов. Таким образом, мера сложности последовательности S по Лемпелю и Зиву CLZравна минимальному числу фрагментов составляющих S:
CLZiS^nmimiifS)}. (5)
Минимальность числа шагов обеспечивается выбором для копирования на каждом шаге максимально длинного прототипа (Gusev et al., 2002). Использовалась нормированная величина CLZ/N, варьирующая в интервале [0,1].
Контекстные деревья-источники рассматриваются как модель порождения генетических текстов (Orlov and Potapov, 2000). Нуклеотидная последовательность X" —XjX2..Jin порождается с вероятностью PfX") = P(Xi|S|)x P(X;i|S2)x...xPp(n|S,l). Так же как и марковские модели, древовидно-контекстные модели являются стационарными (Потапов, 1999). Используются вероятности PfXnJSy наблюдения нуклеотидаХп, которые не зависят от позиции п, но зависят от локального предшествующего (слева) контекста длина которого может варьировать. Автором разработана компьютерная программа, позволяющая выбрать оптимальную древовидно-контекстную модель и параметры модели для данного текста (Orlov and Potapov, 2000) по алгоритму "Контекст" (Barron et al.,. 1998). Структуру неслучайных контекстов можно визуализировать в форме суффиксного дерева. Частоты встречаемости нуклеотидов в зависимости от предшествующего контекста рассчитываются программой по обучающей выборке участков геномной ДНК для последующего поиска таких участков в геноме.
Алгоритм "Дискавери" для поиска закономерностей контекстной организации регуляторных районов ненов. Поиск закономерностей в регуляторных последовательностях ДНК включает разметку контекстных сигналов и установление правил (закономерностей), связывающих наборы (паттерны) контекстных сигналов и функцию последовательности. С помощью статистических оценок (критерий Фишера для таблиц сопряженности) оценивается точность итогового предсказания и статистическая значимость правил. Отличительная особенность используемого алгоритма "Дискавери" -использование специфических схем (паттернов) характеристик, которые описывают подгруппы всего обучающего набора объектов (обучающей выборки последовательностей ДНК), при этом описание носит вероятностный характер (Kovalcrchukand Vityaev, 2000, Kolchanov et al., 2003).
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Контекстная структура сайтов связывания транскрипционных факторов (ССТФ). Вопрос о контекстном составе ССТФ может быть рассмотрен с точки зрения структурных отличий между сайтами и их локальным окружением. Построим профиль сложности текста для нуклеотидньк последовательностей ССТФ. Профиль строится для каждой последовательности по отдельности, затем для каждой позиции в фазированной выборке вычисляется среднее, минимальное
и максимальное
значения.
В 67 выборках ССТФ эукариот, построенных по базе данных TRRD, можно выделить группы сайтов с повышенным и пониженным
значением сложности текста. На рисунке 1 приведены профили сложности по
Лемпелю-Зиву.
Различаются именно средние
значения в коровом (core), наиболее консервативном районе сайта. Значения на флангах примерно равны для обеих групп сайтоа Рассмотрим структурную классификацию белковых транскрипционных факторов (ГФ), нуклеотидные последовательности сайтов связывания которых были проанализированы. ТФ, характеризующиеся повышенной сложностью нуклеотидньк последовательностей сайтов связывания, составляют большинство и относятся ко всем четырем суперклассам: основные домены, домены, координируемые цинком, ашраль-поворот-спираль и бета-укладка с контактами по малой бороздке ДНК (Вингендер, 1997). Сюда входят транскрипционные факторы С/ЕВР, CREB, CRE, DBP, JunD, JunFos и NFE2 (структурный класс 1.1, лейщшовая застежка), ARNT (12), CLOCK/BMAL1 и сМус (13), ER и PPRE (2.1),
GATA1 (22), HSF1 (3.4), NFkB (4.1). В скобках указана структурная классификация ТФ - суперкласс и класс (Вингендер, 1997).
К ТФ, имеющим пониженную сложность нуклеотидных последовательностей, относятся белки сКгох, Egrl, EKLF, Spl и Sp3 (структурный класс 23, Cys2His2 цинковый палец), Oct и Pitl (3.1, гомеодомен), Pul (класс 3.5, трипгофановый кластер), HMG1 (не классифицирован). Таким образом, только несколько структурных классов транскрипционных факторов характеризуются пониженной сложностью связывающихся с ними последовательностей ДНК. Интересно отметить, что пониженную сложность имеют нуклеотидные последовательности сайтов связывания белковых факторов обладающих способностью связываться с ДНК, упакованной в структуру нуклеосомы.
Сложность экзонов, нитронов и регуляторных районов генов
Исследовались последовательности ДНК, содержащие промоторы (участки [-500;+100]), энхансеры, кодирующие и некодирующие последовательности (экзоны и интроны). Для каждой группы последовательностей была вычислена
сложность по всем
Таблица 1.
Средние значения оценок сложности экзонов, интронов и промоторов в скользящем ouïe 50 по.
Сложность Лингвисти- Оценка нерав-
поЛсмпйно- ческая слож- номерности
Знву CLZN uocibCZ состава Of F
Экзоны 0.433 0.913 0.861
Энхансеры 0.425 0.912 0.863
Промоторы 0.422 0.910 0.836
Ц]проны 0.421 0.907 0.836
используемым методам -оценка по методу Лемпеля и Зива, лингвистическая сложность, оценки
неравномерности нуклео-тидного состава (Табл. 1). Показано, что оценки сложности геномной ДНК коррелируют между собой. Сюжность нитронов оказалась наименьшей, сложность кодирующих районов -наибольшей ^гк^ & а1, 2004). Регуляторные районы генов эукариот- промоторы и энхансеры — имеют промежуточную сложность между экзонами и нитронами. Различие распределений сложности для проанализированных выборок последовательностей ДНК статистически значимо (р<0.01). Таким образом, наблюдается соответствие математически оцененной сложности текста, и функциональной нагруженности последовательностей ДНК (Трифонов, 1997): некодирующие последовательности (интроны), регуляторные последовательности (промоторы и энхансеры) и, наконец, кодирующие белок последовательности.
Детальный анализ сложности промоторных районов фазированных относительно старта транскрипции показал, что максимальные значения
сложности достигаются в районе корового
промотора (Рис. 2). Данный результат
представляет интерес в свете установленного в предыдущих разделах факта, что большинство ССТФ характеризуются повышенной сложностью.
Пик профиля сложности в районе перед стартом транскрипции (СТ) в районе [-50;-1] свидетельствует о большей насыщенности сайтами этого района, что подтверждается как анализом распределения ССГФ по базе данных TRRD, так и результатами предсказания ССТФ (Kondrakhin et al., 1995).
Поиск комплексных сигналов в промоторах генов эукариот
Для выборок промоторных районов генов, экспрессирующихся в генных сетях: эндокринной системы, системы эритропоэза, системы липидного метаболизма и генов системы ответа на тепловой шок, а также интерферон-регулируемых и глюкокортикоид-регулируемых генов с помощью программы ARGO (Вишневский и Витяев, 2001) была построена разметка контекстных сигналов в форме специфичных атигонуклеотидоа Далее с использованием компьютерной системы "Gene Discovery" проводился отбор комплексных сигналов удовлетворяющих следующим условиям:
(1) индивидуальные сигналы, входящие в комплексный сигнал, не пересекаются на последовательностях рассмотренных промоторов
(2) наблюдаемое количество промоторов N, в которых встретился комплексный сигнал выше числа N*, ожидаемого по случайным причинам, с учетом частот атигонуклеотидов и вариантов взаимного расположения олигонуклеотидов в промоторах данной выборки. Таблицы специфичных комплексных сигналов, удовлетворяющих этим условиям, приведены в работах (Витяев и др., 2001; Vityaev eta!., 2002; Kolchanov et al, 2003).
На рисунке 3 представлено в качестве примера расположение в промоторах генов эндокринной системы комплексного сигнала
Позиция относительно СТ, п.о. — ЕРО —-ШЮ Рис. 2. Средние значения профилей сложности промоторных районов в скользящем окне 50 ао, дта выборок, построенных по базам да шых "ЛУШ (черная линия) и ЕРО (серея линия).
CWGNRGCN<NGSYMTAM<MAGKSHCN (запись сигнала обозначает упорядоченную тройку олигонуклеотидов в 15-буквеншм алфавите IUPAQ. Данный комплексный сигнал выявлен в 6 промоторах в районе от -100 но. до +20 п.о. относительно старта транскрипции (идентификаторы EMBL: M26856, М73820, J00749, К01877, J03071, U02293, соответственно).
Отметим совпадение локализации второго олигонуклеотидного мотива с районом ТАТА-бокса, Из рисунка 3 также видно, что в промоторах расстояния
(тэте) между первым и вторым и между вторым и третьим олигонуклеотидами комплексного сигнала близки. Олигонуклео-твд CWGNRGCN (первый в комплексном сигнале) часто встречается в ССТФ Myogenin, аннотированных в базе данных TRRD, олигонуклео-расшложншя комплексного сигнала ТИД MAGKSHCN CWGNRGCN<MGSYMTAM<ÄdAGKSbICN в гфомспорах гаюв встречается в сайтах эвдокринной системы (иприхованные и черные прямоугольники), связывания Nrf2 (NF-Серымпрямоупшышк0мпоказа1ЮположениеТАТА-бокса. E2-related fect0r 2\ и
средний по расположению в сигнале олигонуклеотид соответствует ТАТА-бЪксу.
Комплексные сигналы, состоящие из нескольких атигонуклеотидов в 15-буквенном коде, были найдены и для промоторов генов других функциональных систем. Заметим, что индивидуальные сигналы (атигонуклеотиды), входящие в комплексные сигналы, часто встречаются в экспериментально известных сайтах связывания транскрипционных факторов, аннотированных в базе данных TRRD. Исследование нуклеотидных последовательностей промоторов генов, экспрессирующихся в генных сетях: системы липидного метаболизма, интерферон-регулируемых генов и генов системы ответа на тепловой шок, показало, что упорядоченное линейное расположение характерно для статистически отобранных комплексных олигонуклеотидных сигналов.
Сайты сплайсинга. Дня изучения вопроса об изменении сложности при переходе от кодирующих к некодирующим районам и обратно исследовалось
распределение сложности для двух выборок - донорных и акцепторных сайтов сплайсинга млекопитающих (база данных SpliceDB, Buгsct & а1, 2001). Последовательности имели длину 82 нуклеотида с каноническими динуклеотидами GT и AG в центре. Средние значения профилей сложности по методу Лемпеля и Зива в скользящем окне 20 п.о. для выборок донорных и акцепторных сайтов сплайсинга совмещены и представлены на рисунке 4. По оси абсцисс указано положение середины окна.
Сложность последовательности акцепторных сайтов сплайсинга в скользящем окне при переходе от интрона к экзону возрастает. Дтя донорных сайтов сплайсинга обратная ситуация: сложность убывает. Таким образом, кодирующие районы имеют большую сложность по сравнению с некодирующими. Статистическая значимость найденных различий составляет а=0.005.
Сложность текста для 5 -негранслируемых последовательностей (5'-НТП) мРНК. Были проанализированы выборки 5-Н'Ш генов эукариот с высоким и низким уровнем экспрессии. Уровень экспрессии гена был определен ранее исходя га литературных данных о количестве соответствующего белка (KochetovetaL, 1998).
Оценка сложности по Лемпелю и Зиву, учитывающая повторы (фрагменты) максимальной длины в сложностном разложении, выявила пониженную сложность 5-HTTL При этом разница в сложности увеличилась при учете не только прямых, но и инвертированных повторов. Различия в распределении оценок сложности подтверждают связь уровня экспрессии с вторичной структурой РНК. Меньшая сложность по Лемпелю и Зиву свидетельствует о присутствии в среднем более длинных инвертированных повторов, способствующих образованию шпилек вторичной структуры РНК, что, по-видимому, затрудняет плавление РНК, трансляцию и соответственно экспрессию гена в целом.
Анализ сайтов формирования нуклеосом. Рассмотрим последовательности ДНК, содержащие сайты формирования нуклеосом длиной
146 п.О с флангами (общая длина последовательностей составляла 400 п.о.). Были построены профили сложности по Лемпелю-Зиву в скользящем окне 27 ILO., рассчитан средний профиль для выборки (Рис. 5).
-200 -150 -100 -60 0 50 100 13} 200
Позиция относительно центра сайта, п.о. Рис; 5. Периодические колебания профиля сложности для выборки сайтов формирован]« нуклеосом. Зацприхованными прямоугольниками указано положение линкерной Д НК. Стрелками елмечены локалы aie ми шмумы, прямыми лш п мш - тра иы изма ici мя слсма юсш.
Показано существование локальных трендов уменьшения сложности от центра нуклеосомного сайта (оси симметрии) к краям, более низкая в среднем сложность участка, контактирующего с гистоновым окгамером и более высокая сложность линкерной ДНК (Рис. 5). Присутствует периодичность распределения локальных минимумов и максимумов сложности с периодом 11 п.о. В линкерных районах такой периодичности нет. Далее от линкерных районов в местах потенциального расположения соседних нуклеосом периодичность наблюдается вновь (см. минимумы -150, -130 и +130, +150 на Рис.5). Периодичность в распределении сложности локальных районов нуклеосомных сайтов ведет себя так же, как периодичность в распределении динуклеотидов АА и ТТ, необходимых для изгибания двухцепочечной ДНК. Таким образом, сайты формирования нуклеосом обладают рядом, контекстных особенностей, вызванных эволюционным отбором нуклеотидов для облегчения связывания ДНК с гистоновым октамером.
Предсказание сайтов формирования нуклеосом в геномной ДНК выполнялось с помощью контекстной древовидной модели (Orlov and Potapov, 2002), построенной и обученной по выборке нуклеосомных сайтов. В скользящем окне рассчитывался нуклеосомный потенциал - функция соответствия нуклеотидной последовательности модели нуклеосомного сайта. Предсказательная сила такой модели была проверена на независимых экспериментальных данных по
формированию нуклессом, полученным в результате SELEX экспериментов (Widhmd et al., 1997; Cao etal., 1998).
На рисунке 6 представлены средние профати соответствия контекстной нуклеосомной модели для выборок промоторов тканеспецифичных генов и генов, экспрессируюшихся в широком круге тканей (в основном генов домашнего
хозяйства). Промоторы тканеспецифичных генов более соответствуют модели нуклеосомного сайта
(нижний профиль), чем промоторы активно
экспрессируюшихся генов. Это говорит о предпочтении к формированию нуклеосом в "молчащих" генах,
экспрессия которых вдет лишь в отдельных тканях организма эукариот, чем в активно экспрессируюших-ся, что подтверждает оценки работы (Levitskye/oZ, 2001).
Поиск участков низкой сложности в полных геномах выполнялся с помощью расчета профилей сложности в скользящем окне. На рисунке 7 представлен график сложности полной геномной последовательности Borrelia bitrgdorfeii (910724 п.о.) в скользящем окне 1000 п.о., соответствующем среднему размеру гена Аномальные участки с низкой сложностью отмечены стрелками (13). Участок (1) соответствует гену ВВ0210, кодирующему трансмембранный белок Impl. Участок содержит два длинных прямых повтора в 234 п.о. и 315 п.о. в кодирующей части, что и обусловливает низкую сложность этого участка Два другие участка (2 и 3) с низкой сложностью найдены в районе гипотетического гена ВВ0546 (позиции 556563-557423) и гена ВВ0801 (позиции 844454-S47102), соответственно. Все участки содержат тандсмно повторенные элементы (Orlov and Potapov, 2004).
В скользящем окне 4000 п.о. выделяется участок низкой сложности (4), содержащий кластер генов рибосомальных РНК (Рис. 7). Таким образом, низкая сложность в скользящем окне в масштабе бактериального генома связана с
Анализ структуры повторов в геномах
присутствием протяженных повторов, кластеров генов и мультидоменных белкоа В то же время, как было показано в предыдущих разделах, участки низкой сложности в масштабе 20-100 п.о. связаны с кодирующими свойствами ДНК и насыщенностью регуляторными сигналами.
Рассмотрим полное сложностное разложение геномов на непересекающиеся фрагменты максимальной длины по модифицированному методу Лемпеля и Зива с учетом всех возможных типов повтороа Такое исследование позволило выявить все совершенные повторы заданной длины и проанализировать их структуру. Было показано преобладание прямых и инвертированных повторов и отсутствие протяженных симметричных повторов текста, не имеющих молекулярных механизмов происхождения.
Например, как показано в таблице 2, средняя длина фрагмеша в сложностном разложении, составленном только из совершенных прямых повторов в геноме Archaeoglobus fidgidus имеющем размер 2178400 п.о., составляет 10.12 нуклеотидов; максимальный совершенный прямой повтор Мо равен 1215 п.о.; средняя длина фрагмента в сложностном разложении, составленном только из инвертированных повторов, равна 10.05 нуклеотидам; и максимальный инвертированный повтор равен 1083 п.о. В то же время средняя длина фрагмента £■5 (сложностное разложение составлено только из симметричных повторов) и средняя длина фрагмента (только прямые комплементарные повторы) равны лишь 9.64 и 9.63 нуклеотидам, соответственно. Максимальный симметричный
повтор М$ в этом геноме имеет длину 23 п.о., максимальный прямой комплементарный повтор Aie имеет длину только 19 п.о., что значительно меньше максимальных размеров прямых и инвертированных повтороов. Средняя длина фрагмента в сложностном разложении, полученном с использованием всех четырех операций копирования равна Н.Пнуклеотидам; максимальная длина повтора равна 1215 по. (заметим, что это прямой повтор, обозначенный буквой D в колонке 12).
Таблица 2.
Параметры сложностных разложений бактериальных геномов и фрагментов хромосом
эукариот
Организм, шел. ДНК Размер (Кб) Ld Mo L, M, Ls Ms Le Mc Мф**
1 2 3 4 5 6 7 8 9 10 11 12
Архебакгерии
AjUgdus 2,178 10.12 1215 10.05 1083 9 M 23 9.63 19 11.11 1215 D
M janmsclm 1,664 10.50 498 10.50 1018 9.84 22 9.84 20 1156 1018 I
Apemix 1,669 9.89 226 9.88 1045 9.42 18 9.41 20 10.84 1045 /
Эубактерии
M pneumonía: 816 9.80 470 932 280 9.09 20 9.07 18 10.86 470 D
В. bvrffhrfm 910 10.01 1438 9.84 22 952 22 9.44 20 11.02 1438 D
Synechocystis 3,573 10.57 2411 10.57 5361 9.99 20 9.99 20 11.57 5361 /
T. ma-ilima 1,860 10.04 921 10.02 341 9.48 19 9.48 23 11.01 921D
RstMis 4Д14 10.59 2957 10.43 535 10.00 22 9.97 20 11.55 2957D
Eœli(0157H7) 5,468 11.11 41784 10.93 2900 10.11 21 10.11 34 1225 4178Ш
Эукариоты ***
P.faldparum, xp2 947 11.59 368 11.05 489 10.79 68 10.66 59 1Z99 489 ;
Rmelanogaster, (xp. 3L) 5,076 10.64 1554 10.63 636 1031 168 1031 219 11.66 1554/5
Mmwculus, xpi 281 9.11 457 8.62 61 8.« 52 8.02 54 10.10 457 D
Scerevisae, xp-XII 1,078 9.81 8375 9.59 1634 927 28 925 36 11.02 8375 D
Примечание: * В катанке 11 приведена средняя длина фрагмента в сложностном разложении с учетом повторов всех 4-х тапоа
** Указан тал поЕггора;0-прякюй,/-ипвер1ировшп1ый.
*** Дтя эукарнотуказан размерпроанатсированнои части хромосом.
Структура протяженных совершенных повторов в геномах. В
относительно редких случаях, когда значения Ms И превышали уровень 20 нуклеотидов, фрагменты формально образующие симметричный или прямой комплементарный повтор, состоят го простых повторяющихся последовательностей, например {AT¡f n(TÁf. Например, максимальный симметричный повтор длиной 168 п.о., найденный в части хромосомы 3 Drosophila melanogaster (Таблица 2, колонка 8) включен в район, состоящий го многократно
повторенного прямого тандемного повтора длиной 8 нуклеотидов (GTATATATf. Максимальный прямой комплементарный повтор длиной 219 п.о. также расположен в том же, указанном выше районе, но имеет прототип в районе, сформированном другим простым тандемным повтором {CATATATAf.
Подтверждено, что эукариотические геномные последовательности имеют большую обогащенность повторами, чем прокариотические, поскольку геномы прокариот имеют большую плотность кодирующих районов. С помощью программы LZcomposer показана обогащешюсть прямыми и инвертированными повторами, что качественно соответствует полученным ранее результатам на меньшем числе геномных последовательностей с помощью других эмпирических мер (Hancock, 2002; Сох and Mirkin, 1997). Протяженные совершенные повторы, скорее всего, имеют недавнюю эволюционную историю. В тоже время такие максимальные совершенные повторы могут быть на удивление велики (см. допатнительные материалы на Интернет-сайте http://wwwmgs.bionetnsc.ru/ mgs/programs/lzramposer/ResBacterial.htm). Так, максимальная длина совершенного повтора в геномах прокариот составляет более 47Кб (точнее 47069 п.о. - геном Streptococcus agalactiae, штамм NEM316). Это инвертированный повтор, причем существует всего три копии этого повтора (третья копия - в прямой ориентации). Штамм Ecoli O157H7 имеет прямой повтор 41784 п.о. Заметим, что другие штаммы того же организма не обладают таким повтором. Присутствие столь длинных повторов в бактериальных геномах указывает на существование молекулярных механизмов, предотвращающих их удаление (Achaz etcd., 2002).
Выводы
1. Для исследования контекстной организации нуклеотидных последовательностей и полных геномов про- и эукариот разработаны Интернет-доступные программы: (i) Complexity (для выявления статистически значимых контекстов - олигонуклеотидных слов на основе марковских моделей с переменной памятью) и (ii) LZcomposer (для поиска прямых и инвертированных повторов, а также участков низкой сложности).
2. Установлено, что большинство сайтов связывания транскрипционных факторов эукариот (~75%) имеют повышенную сложность по сравнению с фланкирующими районами. Показано, что максимальное значение сложности контекстной организации промоторов эукариот достигается в районе [-50;-1] относительно старта транскрипции.
3. В промоторах шести групп генов (эртроид-специфичных, интерферон-регулируемых, глюкокортикоид-регулируемых, липидного метаболизма, системы
регуляции холестерина и ответа на тепловой шок) выявлены комплексные сигналы, представляющие собой наборы специфичных атигонуклеотидов с характерным порядком расположения и варьирующим расстоянием между ними.
4 Показано, что сложность контекстной организации нуклеотидных последовательностей экзонов достоверно выше. (р<0.01), чем нитронов. Установлено, что сложность контекстной организации 5'-фланкирующих районов донорных сайтов сплайсинга достоверно выше, чем З'-фланкирующих районов этих сайтов (р 0.005), а сложность контекстной организации 5'-фланкирующих районов акцепторных сайтов сплайсинга достоверно ниже, чем их З'-фланкирующих районов.
5. Впервые выявлены тренды изменения сложности ко1ггекстной организации в пределах сайтов формирования нуклеосом: уменьшение сложности от центров сайтов к их 5'-и З'-концам и увеличение сложности в районах линкерной ДНК. В пределах сайтов формирования нуклеосом найдена локальная периодичность профиля контекстной сложности с периодом 11 по. Разработан метод предсказания сайтов формирования нуклеосом на основе учета локальных контекстных зависимостей в рамках марковской модели с переменной памятью.
6. Установлено, что 5-НТП мРНК эукариот с низким уровнем экспрессии характеризуются достоверно пониженной (р<0.01) контекстной сложностью по Лемпелю-Зиву, связанной с присутствием большого количества инвертированных повтороа На основе марковских моделей с переменной памятью выявлены статистически значимые кокгексты, характерные для 5'-НТП мРНК с высокой и низкой экспрессией.
7. Найдены максимальные внутри- и межгеномные совершенные повторы для 130 полных геномов прокариот. Показано наличие протяженных совершенных внутригеномных повторов (максимальная длина - 47 тысяч п.о.), занимающих для некоторых организмов до 3-х процентов размера генома
Список основных публикаций по теме диссертации
1. Oriov Yu-L», Pütapov VH (2004) Complexity: Internet-resource for analysis of DNA sequence complexity. Nucleic Acids Res., Web-issue 20Ш, V32, W628-W633.
2. Orlov YilL, Potapov V.N, Poplavsky AS. (2004) Computer analysis of gcrmmic sequence complexity: new applications. Proceedings of the Fourth International conference on Bioinfonriatics of Genome Regulation and Structure (BGRS2004), IC&G,No\cabirsk, V.l, p.153-157.
3. Kolchanov NA, Pozdnyakov MA, Oriov YaL, Vishnevsky O.V, Pbdkolodny N.L, Vityaev EE, Kovalerchuk B. (2003) Computer System' tiene Discovery" for Promoter Structure Analysis.
In: Artificial Intelligence and Heuristic Methods in Bioinfotmatics (Eds: P. Frasconi and R Shamir), IOS Press, p. 173-191
4. Vityaev EE, Orlov YuJL, Vishnevsky O.V, Pozdnyakov MA, Kolchanov N A (2002) Computer system "Gene Discovery" for promoter structure analysis. (Bioinformatian Systems e.V.) In Silico Biology V2Q\ p. 233-247.
5. Orlov YilL, Filippov VP, Potapov VN, Kolchanov NA (2002) Construction of stochastic context trees for genetic teds. (Bioinfomiation Systems e.V.) In Silico Biology, VJ2(3), p. 257-262.
6. Вигяев E£, Орлов ЮЛ, Поздняков MA, Левицкий ВГ., Вишневский ОБ, Подколодный HJL, Колчанов НА (2002) Компьютерная система "Gene Discoveiy" дтя поиска закономерностей и представления знаний по регуляции генной экспрессии в интегрированной электронной библиотеке GeneExpress. Трупы Четвертой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» 15-17 октября 2002 г, ОИЯИ, Дубна, Том 2, с. 84-93.
7. Orlov YilL, Potapov V.N. (2002) Stochastic complexity estimation for genetical texts. In: Fifth German workshop on artificial life: Abstracting and synthesizing the principles of living systems, 18-20 March 20G2, Lucbeck, Germany (GWAL-5), DPoIani, JKim, T.Marthetz (Eds.) Berlin: AkadVerL-Ges. Aka,p.81-88.
8. Вигяев EE, Орлов ЮЛ, Вишневский ОБ, Беленок АС, Колчанов НА (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регулягорных последовательностей эукариот. Молекулярная биаюгия, 2001, Т35(6Х с. 952-960.
9. Orlov YilL, Potapov VJN. (2000) Estimation of stochastic complexity of genetical texts. Computational technologies (Novosibirsk), У5 (Special issue), p. 5-15.
10. Afonnikov DA, Valuev V.P, Kashinskaya Ju.0., Orlov YilL (2000) The ASPD database on synthetic peptides. Computational technologies (Novosibiisk), 5 (Special issue), p. 75-78.
11. Ket AE, Ponomarcnko MP, Likhachev EA, Orlov Y.L, Ischenko LV, Milanesi L, Kolchanov NA (1993) SITEVTOEO: a computer system for functional site analysis and recognition Investigation of the human splice sites. CABIOS, V.9, p.617-627.
1Z Пономаренко M.P, Бенюх ДН, Орлов ЮЛ, Колчанов НА (1991) Метод точного распознавания струюурно-функцисн илы [ых детерминант белковых молекул. Биофизика, TJ6, с. 943-956.
Подписано к печати 3.1X2004 г.
Формат бумага 60 x 901/16. Печ. л. 1.Учлздл.О,7
Тираж 100 экз. Заказ 101.
Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, проспект академика Лаврентьева, 10.
44 168 92
V
Tl
Содержание диссертации, кандидата биологических наук, Орлов, Юрий Львович
ВВЕДЕНИЕ
Список сокращений
Глава 1. ОБЗОР ЛИТЕРАТУРЫ
1.1. ЗАДАЧИ КОМПЬЮТЕРНОГО АНАЛИЗА ГЕНЕТИЧЕСКИХ 15 МАКРОМОЛЕКУЛ
1.1.1. Проблемы компьютерного анализа генетических текстов
1.1.2. Международные проекты геномных исследований
1.2. СТРУКТУРА ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
1.2.1. Особенности структуры генов и геномов про- и эукариот
1.2.2. Формальная классификация типов повторов
1.2.3. Повторы в геномах
1.2.4. Взаимная совместимость генетических сообщений
1.3. СТРУКТУРНО-ФУНКЦИОНАЛЬНАЯ ОРГАНИЗАЦИЯ РЕГУЛЯТОРНЫХ 25 РАЙОНОВ ТРАНСКРИПЦИИ ГЕНОВ ЭУКАРИОТ
1.3.1. Строение регуляторных районов генов эукариот
1.3.2. Иерархическая организация регуляторных районов эукариот
1.3.3. Анализ нуклеосомного кода укладки хроматина
1.4. АЛГОРИТМЫ ОЦЕНКИ СЛОЖНОСТИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ
1.4.1. Сложность символьных последовательностей
1.4.2. Сложность текстов по Лемпелю и Зиву
1.4.3. Анализ лингвистической (комбинаторной) сложности ДНК
1.4.4. Анализ структуры геномных последовательностей: преобразование Фурье
1.5. МЕТОДЫ МНОЖЕСТВЕННОГО ВЫРАВНИВАНИЯ И ПОИСКА 35 ГОМОЛОГИИ
1.5.1. Алгоритмы попарного выравнивания
1.5.2. Метод 1-граммного разложения
1.5.3. Поиск гомологий на основе алгоритмов выравнивания FASTA и BLAST
1.5.4. Реконструкция деревьев сходства
1.6. КОМПЬЮТЕРНЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ ФУНКЦИОНАЛЬНЫХ 41 РАЙНОВ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
1.6.1. Стандарты описания функциональных сайтов
1.6.2. Методы компьютерного распознавания регуляторных районов
1.6.3. Метод скрытых марковских цепей
1.6.4. Обзор программ распознавания промоторов
1.6.5. Сравнение точности методов распознавания
1.7. ИНТЕГРАЛЬНЫЕ МЕТОДЫ ПРЕДСКАЗАНИЯ ФУНКЦИОНАЛЬНЫХ 48 РАЙОНОВ В ГЕНЕТИЧЕСКИХ ТЕКСТАХ
1.7.1. Методика отбора контекстных характеристик на основе теории полезности для 48 принятия решений
1.7.2. Нейронные сети для классификации генетических текстов
1.7.3. Поиск закономерностей в базах данных
1.7.4. Алгоритмы поиска закономерностей на основе вероятностных реляционных 51 моделей
Введение Диссертация по биологии, на тему "Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов"
Актуальность проблемы
Начало XXI века ознаменовалось значительными достижениями в молекулярной биологии и генетике. Важнейшим по праву можно считать создание автоматизированных систем для определения последовательностей оснований ДНК, позволяющих расшифровывать отдельные участки ДНК и протяженные геномные последовательности организмов различных видов вплоть до полных геномов (Venter et al., 2001). Осуществление крупномасштабных проектов по секвенированию геномов человека, животных, растений, бактерий и вирусов привело к лавинообразному росту объема информации о нуклеотидных последовательностях (http://www.ncbi.rim.mh.gov/Genbank/genbankstats.html). Их анализ, обобщение и накопление знаний о структуре и функции генетических молекул относятся в наступившую пост-геномную эпоху к числу наиболее важных проблем молекулярной генетики. Одним из подходов к решению этой проблемы является функциональная аннотация новых генов с помощью компьютерных программ на основе анализа последовательностей ДНК и экспериментальной информации, накопленной в базах данных. Представляемая диссертационная работа посвящена применению современных математических и компьютерных методов теории передачи информации и сжатия данных, а также теории анализа данных и поиска закономерностей к исследованию генетических последовательностей.
В последние 10-15 лет усилия научного сообщества были направлены на накопление последовательностей ДНК, и вершиной этой деятельности стала расшифровка генома человека, состоящего из приблизительно 3109 нуклеотидных пар (Venter et al., 2001). В настоящее время в основных молекулярно-генетических банках данных (EMBL, GenBank, DDBJ) уже накоплена информация о 180 полностью секвенированных геномах микроорганизмов и десятке геномов эукариот, включая геном человека, причем объем расшифрованных последовательностей стремительно растет (http://www.ncbi.nlm.nih.gov/ genomes/MCROBES/Complete.html). Невозможно переоценить значение полученной информации для науки, медицины и других областей жизни человечества (Киселев, 2000; Kanehisa and Bork, 2003). Однако, для успешного использования этой информации необходимо, понять ее биологический смысл, определить функцию последовательностей, их регуляторную роль, эволюционные взаимоотношения.
Прямое применение экспериментальных методов для поиска, сравнения, картирования огромного количества доступных в настоящее время последовательностей ДНК и аминокислот просто невозможно из-за их большой трудоемкости и значительной стоимости. Первоочередная задача состоит в привлечении биополимеров современных компьютерных технологий и разработке математических алгоритмов и компьютерных программ анализа последовательностей генетических макромолекул - ДНК, РНК и белков. Удобство использования программ анализа генетических текстов на персональных компьютерах и возможность обработки больших объемов данных делают их необходимым инструментом в экспериментальной работе молекулярных биологов. Математические методы для анализа последовательностей ДНК, РНК и белков не смогут полностью заменить экспериментальные, поскольку мы не обладаем полными знаниями обо всех молекулярных процессах, проходящих в живой клетке. Но компьютерные методы важны сами по себе -огромное количество экспериментальных данных о последовательностях ДНК, накопленное в специализированных базах данных (Kanehisa and Bork, 2003; Galperin, 2004), дает возможность получения качественно новых знаний о структуре и эволюции геномов. Именно получение новых знаний об организации генетической информации на основе статистического анализа геномных данных является основной целью компьютерных исследований, представленных в настоящей работе.
За последние два десятилетия создан широкий круг программных продуктов, направленных на изучение свойств и структуры последовательностей ДНК и белков (Колчанов, 1988; Wang et al, 1999; Pevzner, 2000; Mount, 2001; Koonin and Galperin, 2002). Большинство алгоритмов, заложенных в эти программы, применяют технику теории вероятностей и математической статистики (Durbin et al, 1998; Ewens and Grant, 2001) и дискретной математики (Gusfield, 1997) для исследования статистических свойств и закономерностей в строении последовательностей биополимеров (Франк-Каменецкий, 1990; Mount, 2001).
Одной из ключевых проблем является анализ сложности генетических текстов с помощью математических оценок, учитывающих эволюционные ограничения на изменение последовательности. Не менее важна проблема компьютерного исследования и поиска в геноме последовательностей, регулирующих экспрессию генов эукариот.
Для всестороннего исследования контекстной организации и количественного анализа сложности текста регуляторных последовательностей необходима разработка современных Интернет-доступных компьютерных программ. Актуальной становится обработка информации о последовательностях ДНК из наиболее полных на сегодняшний день молекулярно-биологических ресурсов (GenBank, EMBL), включая специализированные базы данных по регуляции генной экспрессии (TRRD, TRANSFAC, EPD). В представленной диссертационной работе поставлены задачи разработки и применения новых компьютерных методов статистического анализа генетических текстов, предсказания функциональных сайтов и регуляторных районов в геномной ДНК, поиска повторов в геномах и анализа их структуры.
Цели и задачи исследования
Цели исследования включали:
1) анализ контекстной организации регуляторных районов генов эукариот (сайтов связывания транскрипционных факторов, промоторов, сайтов сплайсинга и др.), сравнение сложности текста содержащих их последовательностей ДНК, выявление фундаментальных контекстных свойств и поиск комплексных сигналов регуляции экспрессии генов;
2) изучение структурной организации полных бактериальных геномов и хромосом эукариот, выявление участков низкой сложности текста и исследование их взаимосвязи с регуляцией экспрессии генов, анализ распределения повторов и их иерархической организации в геномах.
Цели исследования достигались с помощью двух основных математических подходов.
Первым ключевым подходом в данной работе была концепция сложности нуклеотидной последовательности. Сложность как общенаучное понятие приближается по своему статусу к философской категории. Применительно к символьным последовательностям основополагающей является фундаментальная идея А.Н. Колмогорова (Колмогоров, 1965) об определении сложности последовательности как длины кратчайшей программы, по которой эта последовательность может быть синтезирована. В таком общем определении сложность по Колмогорову не может быть вычислена. Существует несколько конструктивных реализаций идеи А.Н. Колмогорова, которым соответствуют различные определения сложности - комбинаторная, операционная сложность, энтропийные меры. Наиболее распространена мера сложности, предложенная Лемпелем и Зивом (Lempel and Ziv, 1976), на основе которой реализованы многие программы сжатия данных (архиваторы). Модификация меры Лемпеля и Зива для генетических текстов (Гусев и др., 1991а; 19916; Gusev et al., 1999), была использована в настоящей работе и реализована в Интернет-доступной программе LZcomposer. Были использованы и реализованы в единой компьютерной системе Complexity (Orlov and Potapov, 2004) также оценки лингвистической сложности (Trifonov, 1990; Troyanskaya et al., 2002) и оценки неравномерности нуклеотидного состава (Wootton and Federhen, 1996).
Вторым фундаментальным подходом являлся метод установления комплексных сигналов и закономерностей по алгоритму "Дискавери" (Discovery), разработанный ранее в рамках теории анализа данных и открытий (Data Mining, Knowledge Discovery) (Витяев, 1993; Kovalerchuk and Vityaev, 2000).
Необходимыми условиями работы были компьютерная реализация указанных математических алгоритмов, подготовка данных и выборок последовательностей, создание соответствующего Интернет-доступного программного обеспечения (Orlov and Potapov, 2000; 2004; Orlov et al., 2002a; 20026; 2002e).
Конкретные задачи исследования включали: (1) компьютерный анализ нуклеотидных последовательностей сайтов связывания транскрипционных факторов и регуляторных районов генов эукариот с помощью оценок сложности; (2) поиск комплексных закономерностей контекстной организации промоторов эукариот и разработку компьютерных методов распознавания таких последовательностей в геномной ДНК; (3) анализ контекстной структуры сайтов формирования нуклеосом; 4) поиск повторов в полных бактериальных геномах и хромосомах эукариот и анализ их структуры.
Методические задачи исследования включали разработку и компьютерную реализацию на языке С++ алгоритмов: (1) оценки сложности генетических текстов; (2) определения оптимальной марковской модели с переменной памятью (модели контекстного дерева источника) по нуклеотидной последовательности; (3) предсказания функциональных районов в геномных последовательностях на основе марковских моделей; (4) выявления повторов и быстрого поиска гомологии в сверхдлинных последовательностях (до 250 Мб); (5) поиска закономерностей (комплексных характеристик) в регуляторных районах генов эукариот на основе методов теории анализа данных (алгоритм "Gene Discovery").
Все указанные методы реализованы в виде компьютерных программ с интерфейсом пользователя (Витяев и др., 2001; Orlov et al, 2002а; 2002б; 2002в; 2002г; Kolchanov et al, 2003). В Интернет-доступном варианте реализованы программы: (1) построения профилей сложности генетических текстов с помощью набора методов (Orlov and Potapov, 2004); (2) сложностных разложений по модифицированному методу Лемпеля-Зива (Orlov et al, 2002e); (3) определения оптимальной контекстно-древовидной модели и ее визуализации (Orlov and Potapov, 2000; Orlov et al, 2002г).
Программная реализация алгоритмов создавалась с учетом того, что исследованию подвергаются огромные массивы данных (в частности, последовательности хромосом человека размером до 250 Мб). Поэтому особое внимание уделялось оптимизации времени выполнения основных расчетных процедур, сведению к времени счета, линейному в зависимости от длины последовательности. Использованные алгоритмы описаны в Главе 2 диссертации.
Применение компьютерных программ выполнялось на группах объектов в соответствии с иерархией организации молекулярно-генетической информации: (1) нуклеотидные последовательности сайтов связывания транскрипционных факторов (база данных ТШФ, КокЬапоу е/ а!., 2002а); (2) функциональные последовательности ДНК -регуляторные районы генов (базы данных ТШШ, Ко1сЬапоу е1 а1, 2002а; ЕРБ, Ргаг е/ а/., 2002), экзоны и интроны (база данных ЕЮ, Бахопоу е/ а1., 2000), (3) промоторы совместно регулируемых генов эукариот ТМШ (КокЬапоу е/ а1, 2002а); (4) сайты сплайсинга (база данных БрНсеОВ, Вигее! ег а1., 2001); (5) 5-нетранслируемые последовательности мРНК (5'-НТП) генов эукариот (ЕМВЬ); (6) сайты формирования нуклеосом (Ьеукзку et а!., 1999); (7) полные бактериальные геномы и хромосомы эукариот (базы данных ОепВапк, ЕМВЬ, ТАЖ). Результаты исследования представлены в соответствующих разделах Главы 3.
Научная новизна и актуальность работы
Предложен оригинальный метод распознавания функциональных районов на основе марковских моделей с переменной памятью. Показано статистически значимое различие сложности нуклеотидных последовательностей экзонов, интронов и регуляторных районов генов эукариот. Впервые показано изменение сложности нуклеотидных последовательностей, содержащих донорные и акцепторные сайты сплайсинга генов эукариот. Впервые выявлены тренды изменения сложности в нуклеотидных последовательностях, содержащих сайты формирования нуклеосом.
Анализ встречаемости прямых, инвертированных и симметричных повторов в полных последовательностях бактериальных геномов и хромосом эукариот выполнен на наиболее полных данных, доступных на момент выполнения работы (релиз 34 ОепВапк МСВ1 2003 г.). Найдены максимальные внутри- и межгеномные совершенные повторы для 130 полных геномов прокариот. Показано наличие протяженных совершенных внутригеномных повторов (максимальный размер - 47 тысяч и.о.), занимающих для некоторых организмов до 3-х процентов размера генома.
Разработан метод компьютерного поиска закономерностей контекстной организации регуляторных последовательностей генов эукариот. Закономерности определяются в форме комплексных сигналов, состоящих из наборов олигонуклеотидов в 15-буквенном алфавите ШРАС. Впервые найдены такие комплексные сигналы для промоторных последовательностей шести ткане- и функционально специфичных групп генов эукариот из базы данных TRRD.
Структура и объем работы
Заключение Диссертация по теме "Генетика", Орлов, Юрий Львович
ВЫВОДЫ ПО ДИССЕРТАЦИОННОЙ РАБОТЕ
1. Для исследования контекстной организации нуклеотидных последовательностей и полных геномов про- и эукариот разработаны Интернет-доступные программы: (i) Complexity (для выявления статистически значимых контекстов - олигонуклеотидных слов на основе марковских моделей с переменной памятью) и (ii) LZcomposer (для поиска прямых и инвертированных повторов, а также участков низкой сложности).
2. Установлено, что нуклеотидные последовательности большинства сайтов связывания транскрипционных факторов эукариот (-75%) имеют повышенную сложность по сравнению с фланкирующими районами. Показано, что максимальное значение сложности контекстной организации промоторов эукариот достигается в районе [-50;-1] относительно старта транскрипции.
3. В промоторах шести групп генов (эритроид-специфичных, интерферон-регулируемых, глюкокортикоид-регулируемых, липидного метаболизма, системы регуляции холестерина и ответа на тепловой шок) выявлены комплексные сигналы, представляющие собой наборы специфичных олигонуклеотидов с характерным порядком расположения и варьирующим расстоянием между ними.
4 Показано, что сложность контекстной организации нуклеотидных последовательностей экзонов достоверно выше (р < 0.01), чем интронов. Установлено, что сложность контекстной организации 5'-фланкирующих районов донорных сайтов сплайсинга достоверно выше, чем 3'-фланкирующих районов этих сайтов (р<0.005), а сложность контекстной организации 5'-фланкирующих районов акцепторных сайтов сплайсинга достоверно ниже, чем их 3'-фланкирующих районов.
5. Впервые выявлены тренды изменения сложности контекстной организации в пределах сайтов формирования нуклеосом: уменьшение сложности от центров сайтов к их 5'-и З'-концам и увеличение сложности в районах линкерной ДНК. В пределах сайтов формирования нуклеосом найдена локальная периодичность профиля контекстной сложности с периодом 11 п.о. Разработан метод предсказания сайтов формирования нуклеосом на основе учета локальных контекстных зависимостей в рамках марковской модели с переменной памятью.
6. Установлено, что 5-НТП мРНК эукариот с низким уровнем экспрессии характеризуются достоверно пониженной (р<0.01) контекстной сложностью по Лемпелю-Зиву, связанной с присутствием большого количества инвертированных повторов. На основе марковских моделей с переменной памятью выявлены статистически значимые контексты, характерные для 5'-НТП мРНК с высокой и низкой экспрессией.
7. Найдены максимальные внутри- и межгеномные совершенные повторы для 130 полных геномов прокариот. Показано наличие протяженных совершенных внутригеномных повторов (максимальная длина - 47 тысяч п.о.), занимающих для некоторых организмов до 3-х процентов размера генома.
Список публикаций по теме диссертации
1. Orlov Yu.L., Potapov V.N. (2004) Complexity: Internet-resource for analysis of DNA sequence complexity. I I Nucleic Acids Res., Web-issue 2004, V.32, W628-W633.
2. Orlov Yu.L., Potapov V.N., Poplavsky A.S. (2004) Computer analysis of genomic sequence complexity: new applications. // In: Proceedings of the Fourth International conference on Bioinformatics of Genome Regulation and Structure (BGRS'2004), IC&G, Novosibirsk, V.l, p. 153-157.
3. Kolchanov N.A., Pozdnyakov M.A., Orlov Yu.L., Vishnevsky O.V., Podkolodny N.L., Vityaev E.E., Kovalerchuk B. (2003) Computer System "Gene Discovery" for Promoter Structure Analysis. // In: Artificial Intelligence and Heuristic Methods in Bioinformatics (Eds: P. Frasconi and R. Shamir), IOS Press (ISBN 1-58603-294-1), p. 173-192.
4. Vityaev E.E., Orlov Yu.L., Vishnevsky O.V., Pozdnyakov M.A., Kolchanov N.A. (2002) Computer system "Gene Discovery" for promoter structure analysis // (Bioinformation Systems e.V.) In Silico Biology 2(3), p. 233-247.
5. Orlov Yu.L., Filippov V.P., Potapov V.N., Kolchanov N.A. (2002) Construction of stochastic context trees for genetic texts // (Bioinformation Systems e.V.) In Silico Biology 2(3), p. 257-262.
6. Витяев E.E., Орлов Ю.Л., Поздняков M.A., Левицкий В.Г., Вишневский О.В., Подколодный Н.Л., Колчанов Н.А. (2002) Компьютерная система "Gene Discovery" для поиска закономерностей и представления знаний по регуляции генной экспрессии в интегрированной электронной библиотеке GeneExpress. // Труды Четвертой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» 15-17 октября 2002 г., ОИЯИ, Дубна, Том 2, с. 84-93.
7. Kolchanov N.A., Podkolodny N.L., Ananko Е.А., Ignatieva E.V., Podkolodnaya O.A., Stepanenko I.L., Merkulova Y.I., Lavryushev S.V., Grigorovich D.A., Kochetov A.V., Orlova G.V., Titov I.I., Vishnevsky O.V., Orlov Yu.L., Ivanisenko V.A., Vorobiev D.G., Oshchepkov D.Yu., Omelyanchuk N.A., Pozdnyakov M.A., Afonnikov D.A., Matushkin Yu.G., Likhoshvai V.A., Ratushny A.V., Katokhin A.V., Turnaev I.I., Proscura A.L., Suslov V.V., Nedosekina E.A. (2002) GeneExpress-2002: An integrated system on gene expression regulation. //In: Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Instof Cytology&Genetics Press, Vol.3, p.232-234.
8. Orlov Yu.L., Potapov V.N., Filippov V.P. (2002) Recognizing functional DNA sites and segmenting genomes using the program "Complexity". // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Instof Cytology&Genetics Press, Vol.3, p.243-246.
9. Orlov Yu.L., Gusev V.D., Nemytikova L.A. (2002) Software package LZcomposer: analysis of occurrence of repeats in complete genomes. // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Inst.of Cytology&Genetics Press, Vol.3, p.247-250.
10. Vityaev E.E., Pozdnyakov M.A., Orlov Yu.L., Vishnevsky O.V., Podkolodny N.L., Kolchanov N.A. (2002) "Gene Discovery" computer system for analysis of regulatory regions. // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Instof Cytology&Genetics Press, Vol.3, p.257-259.
11. Gusev V.D., Nemytikova L.A., Orlov Yu.L., Filippov V.P. (2002) Internet-available software system LZcomposer for analysis of genome sequence structure on the basis of complexity decompositions // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Inst.of Cytology&Genetics Press, Vol.3, p.260-263.
12. Orlov Yu.L., Potapov V.N. (2002) Stochastic complexity estimation for genetical texts. // In: Fifth German workshop on artificial life: Abstracting and synthesizing the principles of living systems, 18-20 March 2002, Luebeck, Germany (GWAL-5), D.Polani, J.Kim, T.Martinetz (Eds.) Berlin: Akad.Verl.-Ges. Aka (ISBN 3-89838-030-0, ISBN 158603-242-9), p.81-88.
13. Orlov Y.L., Filippov V.P., Potapov V.N., Kolchanov N.A. (2002) Complexity: Software Tools for Analysis of Information Measures of Genetic Texts. // In Proceedings of Workshop on Genomic Signal Processing and Statistics (GENSIPS-2002) CP 1-08, p.l-4 (http://www.gensips.gatech.edu/proceedings/).
14. Витяев E.E., Орлов Ю.Л., Вишневский O.B., Беленок А.С., Колчанов Н.А. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. // Молекулярная биология, 2001, 35(6), с. 952-960.
15. Orlov Yu.L., Potapov V.N. (2000) Estimation of stochastic complexity of genetical texts. // Computational technologies (Novosibirsk), V.5 (Special issue), p. 5-15.
16. Afonnikov D.A., Valuev V.P., Kashinskaya Ju.O., Orlov Yu.L. (2000) The ASPD database on synthetic peptides. // Computational technologies (Novosibirsk), V.5 (Special issue), p. 75-78.
17. Орлов Ю.Л. (2000) Компьютерный поиск информативных характеристик функциональных сайтов в аминокислотных и нуклеотидных последовательностях // Материалы VIII Всероссийского семинара "Нейроинформатика и ее приложения", 6-8 октября 2000 г. (Ред. Горбань А.Н.) ИВМ СО РАН, Красноярск, 2000, с. 128-129.
18. Орлов Ю.Л., Потапов В.Н. (2000) Оценка стохастической сложности генетических текстов //Четвертый Сибирский конгресс по прикладной и индустриальной математике (ИНПРИМ-2000) Тез.докл., ч.Ш, ИМ СО РАН, Новосибирск, 2000, с. 68.
19. Kolchanov N.A., Podkolodny N.L., Ponomarenko M.P., Ananko E.A., Ignatieva E.V., Kolpakov F.A., Levitsky V.G., Podkolodnaya O.A., Stepanenko I.L., Merkulova T.I., Vorobiev D.G., Lavryushev S.V., Grigorovich D.A., Ponomarenko J.V., Kochetov A.V., Orlova G.V., Kondrakhin Y.V., Titov I.I., Vishnevsky O.V., Orlov Yu.L., Valuev V.P., Ivanisenko V.A., Oschepkov D.Yu., Omel'yanchuk N.A., Pozdnyakov M.A., Kosarev P.S., Goryachkovskaya T.N., Fokin O.N., Kalinichenko L.A., Kotlyarov Yu.V. (2000) Integrated system on gene expression regulation Geneexpress - 2000. // In: Proceedings ofBGRS'2000, ICG Press, Novosibirsk, 12-16.
20. Orlov Yu.L., Potapov V.N. (2000) Determining Markov model of genetical texts by stochastic complexity estimation. // In: Proceedings of BGRS'2000, ICG Press, Novosibirsk, p.69-71.
21. Orlov Yu.L., Kosarev P.S., Orlova N.G., Potapov V.N. (2000) Analysis of context dependencies within regulatory gene regions in eukaryotes. // In: Proceedings of BGRS'2000, ICG Press, Novosibirsk, p.l 15-117.
22. Orlov Yu.L., Levitsky V.G. (2000) Nucleosome code analysis by estimating Markov dependencies. // In: Proceedings of BGRS'2000, ICG Press, Novosibirsk, p. 153156.
23. Ponomarenko M.P., Kel A.E., Orlov Yu.L., Benjukh D.N., Ischenko I.V., Bockhonov V.B., Likhachev E.A., Kolchanov N.A. (1993) System "Site-Video". Recognition of Functional Sites Using Recursive Context Systems. // In: "Computer analysis of genetic macromolecules: Structure, Function and Evolution" (Kolchanov N.A., Lim H., eds), World Sci.Pub.Co., Singapore, p.35-65.
24. Rogozin I.B., Milanesi L., Ischenko I.V., Kel A.E., Kolchanov N.A., Ponomarenko M.P., Orlov Yu.L. (1993) Computer system "GenView" for Recognition of exon-intron structure of genes in human genome. // In: "Computer analysis of genetic macromolecules: Structure, Function and Evolution" (Kolchanov N.A., Lim H., eds), World Sci.Pub.Co., Singapore, 142-153.
25. Kel A.E., Ponomarenko M.P., Likhachev E.A., Orlov Y.L., Ischenko I.V., Milanesi L., Kolchanov N.A. (1993) SITEVIDEO: a computer system for functional site analysis and recognition. Investigation of the human splice sites. CABIOS, V. 9, 617-627.
26. Kel A.E., Kolchanov N.A., Solovyev V.V., Ponomarenko M.P., Ischenko I.V., Orlov Yu.L., Kapitonov V.V. (1992) Computer investigation of structural organization and evolution of functional sites in polynucleotide sequences. // In: "Modeling and computer methods in molecular biology and genetics" (Ratner V.A., Kolchanov N.A., eds), Nova Sci.Publ., Inc., New York, 49-62.
27. Пономаренко M.P., Бенюх Д.Н., Орлов Ю.Л., Колчанов Н.А. (1991) Метод точного распознавания структурно-функциональных детерминант белковых молекул. // Биофизика, 36, с. 943-956.
ЗАКЛЮЧЕНИЕ
Интернет-доступные программные средства, разработанные в рамках диссертационной работы, позволили получить новые теоретические результаты по анализу контекстной структуры нуклеотидных последовательностей геномов.
Исследование контекстной структуры геномных последовательностей было упорядочено по объектам анализа: нуклеотидные последовательности сайтов связывания транскрипционных факторов, промоторные районы, экзоны и интроны, 5'-нетранслируемые последовательности, сайты формирования нуклеосом и полные геномы. Работа была объединена идей иерархической организации структурно-функциональных районов и использованием общих методов количественной оценки сложности генетических текстов. Показано статистически значимое различие сложности нуклеотидных последовательностей экзонов, интронов и регуляторных районов, что подтверждает идеи Э.Н. Трифонова (Трифонов, 1996) о связи сложности текста и его функциональной нагруженности. Различие сложности текста экзонов и интронов подтверждено исследованием сайтов сплайсинга, где были найдены тренды изменения сложности. Таким образом, установлена точка изменения сложности нуклеотидных последовательностей при переходе от кодирующих к некодирующим районам.
С использованием программы ТгееСотр1ех11у построены контекстные древовидные модели для выборок нуклеотидных последовательностей сайтов связывания транскрипционных факторов, 5'-нетранслируемых районов генов эукариот, сайтов формирования нуклеосом. Показано наличие контекстных сигнатур (наборов неслучайных контекстов), характеризующих исследованные классы последовательностей. С помощью древовидных моделей можно выполнять поиск функциональных районов, соответствующих этим моделям, в геномной ДНК. Ключом к построению оптимальных древовидных моделей служила концепция стохастической сложности текста. Такой подход оказался плодотворным, в частности, для выделения коровых районов в нуклеотндных последовательностях сайтов связывания транскрипционных факторов.
С помощью контекстных древовидных моделей показана возможность оценки нуклеосомного потенциала последовательности ДНК, т.е. предпочтения последовательности к формированию нуклеосомы. Выделены характерные периодические паттерны в сайтах формирования нуклеосом и тренды изменения сложности текста в пределах сайтов. На основе контекстных закономерностей исследовано предпочтение локализации нуклеосом в геномной ДНК. Показано большее предпочтение к формированию нуклеосом в интронах и некодирующей ДНК по сравнению с экзонами и промоторами. Кроме того найдена корреляция между сложностью и нуклеосомным потенциалом для ССТФ.
Показаны различия в контекстной организации 5'-НТП генов с высоким и низким уровнем экспрессии, дающие возможность использования оценок сложности в качестве дополнительных характеристик для оценки уровня экспрессии гена по нуклеотидной последовательности.
Исследована сложность промоторных районов эукариот, показана консервативность района инициации транскрипции в промоторных районах. Проведен анализ промоторов 6 групп генов эукариот (эритроид-специфичных, интерферон-регулируемых, глюкокортикоид-регулируемых генов, генов липидного метаболизма, генов системы регуляции холестерина и генов ответа на тепловой шок). Выявлены комплексные сигналы, представляющие собой группы специфичных олигонуклеотидов с характерным порядком расположения и варьирующим расстоянием между ними, что отражает паттерны регуляции экспрессии этих генов.
Исследовано распределение протяженных внутри- и межгеномных совершенных повторов для 130 полных геномов прокариот, найдены уникальные протяженные прямые и инвертированные повторы, достигающие более 40 тысяч п.о. Показана связь протяженных совершенных повторов с кластерами генов РНК, генов РНК в бактериальных геномах. Впервые с помощью программы Ь7сотрозег показано, что протяженных симметричные и неканонические прямые комплементарные совершенные повторы, образованы только короткими тандемными повторами. Представленные Интернет-доступные компьютерные программы работают с затратами компьютерного времени, линейно зависящими от длины последовательности, что делает их необходимым инструментом исследования вновь секвенируемых протяженных геномных последовательностей, включая полные геномы.
Библиография Диссертация по биологии, кандидата биологических наук, Орлов, Юрий Львович, Новосибирск
1. Бабенко В.Н., Косарев П.С., Базин В.В., Фролов A.C. (1999) Повторяющиеся последовательности в промоторных районах генов эукариот. Биофизика, 44(4), с.664-667.
2. Витяев Е.Е. (1991) Обнаружение закономерностей (методология, метод, программная система SINTEZ). 1. Методология. Методологические проблемы науки. Вычислительные системы, Новосибирск, 138, с.26-60.
3. Витяев Е.Е., Москвитин A.A. (1993) Введение в теорию открытий. Программная система DISCOVERY. Логические методы в информатике. Вычислительные системы, Новосибирск, 148, с. 117-163.
4. Витяев Е.Е., Орлов Ю.Л., Вишневский О.В., Беленок A.C., Колчанов H.A. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. Молекулярная биология, 35(6), с.952-960.
5. Витяев Е.Е., Орлов Ю.Л., Вишневский О.В., Беленок A.C., Колчанов H.A. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. Молекулярная биология, 35(6), с.952-960.
6. Вишневский О.В., Витяев Е.Е. (2001) Анализ и распознавание промоторов эритроид -специфичных генов на основе наборов вырожденных олигонуклеотидных мотивов. Молекулярная биология, 35(6), с.979-986.
7. Григорьева А.Н. (1981) Меры сложности слов на основе предиката вхождения и редакционного расстояния. Зап. научн. семинаров ЛОМИ АН СССР, 105, с. 18-24.
8. Гусев В.Д. (1989) Сложностные профили символьных последовательностей. Методы обработки символьных последовательностей и сигналов. Вычислительные системы, Новосибирск, 132, с.35-63.
9. Гусев В.Д., Куличков В.А., Чупахина О.М. (1991а) Анализ сложности геномов. Мера сложности и классификация выявленных структурных особенностей. Молекулярная биология, 25, с.825-834.
10. Гусев В.Д., Куличков В.А., Чупахина О.М. (1991 б) Сложностной анализ геномов. II. Зоны обширной гомологии в бактриофаге X. Молекулярная биология, 25(4), с. 1080-1089.
11. Гусев В.Д., Немытикова Л.А. (2001) Учет проявлений повторности, симметрии и изоморфизма в символьных последовательностях. Методы обнаружения эмпирических закономерностей. Вычислительные системы, Новосибирск, 167, с.11-33.
12. Гусев В.Д., Немытикова Л.А. Сложностные характеристики генетических текстов Труды 4-й Всероссийской конф. "Распознавание образов и анализ изображений". 4.1.16.
- Орлов, Юрий Львович
- кандидата биологических наук
- Новосибирск, 2004
- ВАК 03.00.15
- Текстуальный и статистический анализ регуляторных последовательностей ДНК и РНК
- Структурная и функциональная характеристика генов, кодирующих трансмембранные белки-паннексины у человека и мыши
- Молекулярная структура и эволюция D17Leh80-подобных локусов в t-комплексе домовой мыши
- Получение структурного гена интерлейкина -1бета и экспрессия ряда генов-иммуномодуляторов человека и быка в клетках E. coli
- Изучение транскрипции локуса CUT Drozophila melanogaster