Бесплатный автореферат и диссертация по биологии на тему
Компьютерный анализ контекстной организации регуляторных и кодирующих районов генов эукариот на основе олигонуклеотидных мотивов
ВАК РФ 03.00.15, Генетика

Автореферат диссертации по теме "Компьютерный анализ контекстной организации регуляторных и кодирующих районов генов эукариот на основе олигонуклеотидных мотивов"

На правах рукописи УДК 004.4: 575.112: 576.7: 577.112

Вишневский Олег Владимирович

КОМПЬЮТЕРНЫЙ АНАЛИЗ КОНТЕКСТНОЙ ОРГАНИЗАЦИИ РЕГУЛЯТОРНЫХ И КОДИРУЮЩИХ РАЙОНОВ ГЕНОВ ЭУКАРИОТ НА ОСНОВЕ ОЛИГОНУКЛЕОТИДНЫХ МОТИВОВ

Специальность 03.00.15 - генетика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Новосибирск - 2004

Работа выполнена в Институте цитологии и генетики СО РАН в лаборатории теоретической генетики, г. Новосибирск.

Научный руководитель: член-корреспондент РАН

Н.А. Колчанов

Институт цитологии и генетики СО РАН, г. Новосибирск

Официальные оппоненты: доктор биологических наук

Л.В. Омельянчук

Институт цитологии и генетики СО РАН, г. Новосибирск

кандидат биологических наук С.И. Бажан

Государственный научный центр вирусологии и биотехнологии, г. Кольцово

Ведущая организация: Институт молекулярной биологии

им. В.А.Энгельгардта РАН, г. Москва

Защита диссертации состоится г. на утреннем

заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук (Д-003.011.01) в Институте цитологии и генетики СО РАН в конференц-зале Института по адресу: 630090, г.Новосибирск, пр. Лаврентьева, 10. Факс: (3832) 33-12-78; e.mail: dissov@bionet.nsc.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН

Автореферат разослан

Ученый секретарь диссертационного совета, доктор биологических наук

А.Д. ГОруздев

Актуальность проблемы. Успехи молекулярной биологии в области разработки методов крупномасштабного секвенирования (полной расшифровки) нуклеотидных последовательностей про- и эукариотических геномов привели к накоплению огромного количества экспериментальных данных. Суммарная длина секвенированных последовательностей ДНК и РНК составляет десятки миллиардов п.н. Полностью секвенированы геномные последовательности более 1000 видов вирусов, 175 видов бактерий, 19 видов археобактерий и 20 эукариотических организмов.

В связи с быстрым накоплением экспериментальных данных особую актуальность приобретает разработка эффективных компьютерных методов распознавания и анализа вновь расшифрованных последовательностей, выявления регуляторных и структурных элементов и анализа особенностей их организации (Baltimore, 2001). Использование таких подходов позволяет получить новую информацию о молекулярно-генетических механизмах функционирования и регуляции процессов жизнедеятельности организмов. Однако, несмотря на существование значительного числа программных ресурсов, направленных на распознавание генов и выявление их структуры, предсказание промоторов, сайтов связывания транскрипционных факторов и т.д., эти задачи остаются до конца не решенными (Claverie, 1997; Fickett and Hatzigeorgiou, 1997; Pedersen et.al, 1999; Zhang, 2002).

Цели исследования. Цель исследования — разработка методов анализа, распознавания и классификации регуляторных и кодирующих последовательностей генов, а также применение разработанных методов для изучения особенностей структурно-функциональной организации регуляторных и кодирующих районов.

Задачи исследования. В ходе работы решались следующие задачи.

1. Разработка метода выявления олигонуклеотидных мотивов, специфичных для функциональных районов нуклеотидных последовательностей. Разработка метода распознавания функциональных районов на основе наборов олигонуклеотидных мотивов. Создание пакета программ, позволяющего производить поиск олигонуклеотидов заданной длины, вырожденности и значимости, а также проводить распознавание регуляторных районов заданного типа в произвольной протяженной последовательности.

2. Анализ промоторов коэкспрессирующихся групп генов, ТАТА-содержащих и ТАТА-несодержащих групп промоторов человека, сайтов связывания транскрипционных факторов, контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей, выявление функциональных мотивов, значимых для структурно-функциональной организации регуляторных районов.

3. Разработка метода выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов. Анализ выборок изофункциональных семейств генов и исследование эволюционных характерист] выявляемых олигонуклеотидов.

библиотека

СПстербург _ ОЭ гОО^актбЭ^?

[ичество

Материалы и методы. Выявление наборов вырожденный олигонуклеотидных мотивов и распознавание регуляторных районов проводилось с помощью разработанного нами программного пакета ARGO (Vishnevsky et al., 2003). Выборки промоторных районов и сайтов связывания транскрипционных факторов были получены из базы данных TRRD (Kolchanov et al., 2002), EPD (Perier et al., 2000) и EpoDB (Stoeckert et al., 1999). 5'- и З'-нетранслируемые районы мРНК дрожжей были получены из базы данных Transterm (Dalphin et al., 1997). При анализе этих районов использовался метод тринуклеотидных весовых матриц. Выявление наборов совершенных олигонуклеотидов, специфичных для кодирующих частей генов, проводилось с помощью разработанной нами программы (Kolchanov et al., 1995) в базе данных последовательностей кодирующих частей изофункциональных семейств генов.

Научная новизна работы. Предложен новый метод выявления наборов вырожденных олигонуклеотидных мотивов, специфичных для регуляторных элементов генов эукариот. Этот метод основан на кластеризации схожих совершенных олигонуклеотидов, входящих в состав различных регуляторных последовательностей с итерационным построением для каждого класса олигонуклеотидов результирующего консенсуса. Предложен новый метод распознавания регуляторных районов генов на основе олигонуклеотидных мотивов, основанный на сравнении представленности и характера распределения мотивов в рассматриваемой последовательности и последовательностях регуляторных районов генов. Методы реализованы в виде Интернет-доступного пакета программ ARGO. Впервые проведен анализ промоторов ряда семейств коэкспрессирующихся генов из базы данных TRRD, для которых выявлены районспецифичные олигонуклеотидные мотивы, соответствующие как ранее известным сайтам связывания транскрипционных факторов, так и новым функциональным сигналам. Проведен сравнительный анализ ТАТА-содержащих и ТАТА-несодержащих групп промоторов. В каждой из указанных групп промоторов выявлены районспецифичные вырожденные олигонуклеотидные мотивы. Впервые продемонстрированы некоторые особенности распределения ТАТА-подобных мотивов вдоль промоторов обеих групп. Анализ сайта связывания транскрипционного фактора SF1 с помощью системы ARGO впервые показал возможность существования комплексного элемента, состоящего из сайта SF1, лежащего в обратной ориентации, и расположенного в 3'-фланкирующем районе сайта NF1. На основе анализа контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей построены контрастные тринуклеотидные весовые матрицы. Показаны достоверные различия распределения тринуклеотидов в 5'-, 3'-нетранслируемых районах высоко- и низкоэкспрессирующихся мРНК дрожжей. Впервые выявлена зависимость между контекстом 5'- и 3'-нетранслируемых районов мРНК с высоким уровнем экспрессии. Впервые с помощью компьютерного моделирования эволюции 5'-, З'-нетранслируемых районов мРНК дрожжей эта зависимость объясняется в рамках модели

лимитирующего звена. Предложен новый метод и разработан пакет программ для выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов, и их классификации. Показано, что основными эволюционными характеристиками, влияющими на количество выявленных специфических олигонуклеотидов, являются неравномерность распределения мутаций и их количество.

Практическая ценность работы. На основе оригинальных методов разработан Интернет-доступный пакет программ ARGO (http://wwwmgs2.bionetnsc.ru:8080/argo/), предназначенный для выявления вырожденных олигонуклеотидных мотивов, классификации и распознавания регуляторных районов генов эукариот в протяженных геномных последовательностях. Проведенный анализ дает дополнительную информацию о структурно-функциональной организации промоторов, сайтов связывания транскрипционных факторов, кодирующих районов эукариот, 5'-и З'-нетранслируемых районов мРНК дрожжей. Система ARGO может быть использована для анализа и классификации вновь секвенированных геномных последовательностей.

Апробация работы. Материалы работы были представлены на отчетных сессиях Института цитологии и генетики 1996, 1999 и 2002 года. Результаты работы были представлены на следующих научных конференциях: First, Second, Third, Fourth International Conferences on Bioinformatics of Genome Regulation and Structure, Novosibirsk, Russia, 1998, 2000, 2002, 2004; Втором сибирском конгрессе по прикладной и индустриальной математике, Новосибирск, Россия, 1996; II и III съездах ВОГиС, Санкт-Петербург 2000, Москва 2004, Россия; Школе молодых учёных по биоинформатике, Италия, сентябрь 2001; Third International Conference on Intelligent Systems for Molecular Biology, Menlo Park, USA, 1995.

Публикации. По теме диссертации опубликовано 29 печатных работ, из них 23 в рецензируемых изданиях.

Структура работы. Диссертационная работа состоит из введения, обзора литературы (первая глава), трех глав, содержащих основные результаты, выводов, списка цитированной литературы (382 ссылки). Работа изложена на 154 страницах, содержит 33 рисунка и 22 таблицы. Нумерация рисунков, таблиц и формул производится отдельно для каждой главы.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ

В первой главе содержится обзор литературы по особенностям структурно-функциональной организации регуляторных районов транскрипции и трансляции эукариот. Описаны современные методы компьютерного анализа и распознавания сайтов связывания транскрипционных факторов, промоторов и генов эукариот. Рассмотрены различные способы оценки эффективности методов предсказания функциональных элементов в нуклеотидных последовательностях.

ГЛАВА II. АНАЛИЗ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ РЕГУЛЯТОРНЫХ РАЙОНОВ ГЕНОВ ЭУКАРИОТ

Метод выявления вырожденных олигонуклеотидных мотивов

Для анализа промоторов генов эукариот нами предложен метод выявления вырожденных районспецифичных олигонуклеотидных мотивов -коротких слов фиксированной длины, записанных в 15-буквенном IUPAC коде (Cornish-Bowden, 1985), значимых для структурно-функциональной организации промоторных районов и играющих важную роль в регуляции экспрессии генов. Метод основан на разбиении выборки S промоторов на М перекрывающихся районов длины L, рассмотрении словарей олигонуклеотидов длины l соответствующих районов каждой последовательности, кластеризации сходных (различающихся не более чем по позициям) олигонуклеотидов из словарей разных

последовательностей и итерационном построении для каждого кластера IUPAC-консенсуса. Олигонуклеотидный мотив, полученный таким образом, считается значимым, если он удовлетворяет критериям:

F - доля промоторов, содержащих данный мотив; F^o P(n,N)- вероятность наблюдать мотив в данном окне в п и

P(n,N) < р0 ■ более последовательностях из N по случайным причинам;

n Q - доля последовательностей негативной выборки,

^ "о содержащих данный мотив, £ ро и q^ - пороговые значения.

Вероятность P(n,N) рассчитывается следующим образом:

Рассмотрим олигонуклеотидный мотив M=x¡,x2,..,x¡ длины / в расширенном 15-буквенном IUPAC коде. Вероятность наблюдать данный мотив в некоторой позиции последовательности длины L оценивается как:

Р(Л/) = Гр.

Здесь P¡ - частота буквы x¿ рассчитанная исходя из мононуклеотидного состава промоторов. Поскольку Р(М), как правило, достаточно мало, то вероятность наблюдать этот мотив в рассматриваемой последовательности по меньшей мере один раз может быть аппроксимирована распределением Пуассона:

р- j_g-(w+imM)

Биномиальная вероятность P(n,N) наблюдать мотив Мпо меньшей мере в п из N последовательностей равна: N

\N-¡

р^ю^с^р'ц-ру

Предложенный метод реализован в виде Интернет-доступного программного комплекса ЛРйО (http://wwwmgs2.bionet.nsc.ги:8080/ащо/) и позволяет без использования множественного выравнивания выявлять в регуляторных районах генов функциональные сигналы.

Метод распознавания регуляторных районов генов на основе наборов районспецифичных вырожденных олигонуклеотидных мотивов

Рассмотрим последовательность длины L, для которой необходимо принять решение, является ли она промотором. Выделим в ней S районов, положения которых совпадают с положениями районов в промоторах обучающей выборки. Для каждого района этой последовательности найдем множество районспецифичных мотивов {г;«} (г;> с Ы, ¡=1..Б). Здесь R -множество всех районспецифичных мотивов, выявленных при анализе выборки промоторов описанным выше методом. Затем для каждого ьш района каждого ]-го промотора из обучающей выборки находится множество районспецифичных мотивов (Гу с Я, ¡=1..Б; ]=1..1М). После этого для каждого промотора формируется множество Гд«=Тут> мотивов из R, представленных в i-м районе и j-гo промотора и распознаваемой последовательности.

с^ддс

-60

ЛАААЙА^АСЛ ТТТТ1

свссс ссссс

с с

ОГОГССХТб

Ш^унтит

¿А<ЗЭТЗСН НХАТАТКА 5ВС1Л НТАТАЮЖ

УСАСММЗХ ЮСАТХШЖ

АвэтгсаговптаггкА шшссттв ьптсакАТАмвэтггмгА СЛМГАТАА

иИТАТМАа ЗТНТАТХА ЮПШАТАА

ТАИАИКСТ бМАТАИАК

ЭЙНвСШС ОбНАТХНА ОТСЗСНКА

+1

фАССТСССТСТАТАТААССАСАССТТСАССЗСАТААААА ТС С Т С ТС ТТТТ

г с авва

сссс

Расположение

районспецифичных

мотивов

на последовательности

Анализируемая последовательность

Множество

разрешенных

нуклеотидов

Рис. 1. Пример определения множества разрешенных нуклеотидов для каждой позиции района [-50;+1] эритроид-специфичного промотора. Например, для позиции (*) разрешенным является множество нуклеотидов {А,Т,С,С}. Для позиции (л) множество разрешенных нуклеотидов имеет вид {С}, так как эта позиция покрыта тремя мотивами, в которых присутствует следующий набор букв: С, У=(Т/С), 8=(0/С).

Для оценки степени сходства между распознаваемой последовательностью и ^м промотором рассматривается расположение на ней всех мотивов из множества Гц» (¡=1..8) (рис. 1). Для каждой к-ой позиции последовательности определяется множество разрешенных

нуклеотидов. Нуклеотид считается разрешенным, если его присутствие в ^ой позиции не противоречит буквам, присутствующим в мотивах, покрывающих ^ю позицию. На основе множества разрешенных нуклеотидов во всех

позициях производится оценка сходства

Pj =-í>gfo)

между j-м промотором

и исследуемой последовательностью. Здесь Ь - длина последовательности, а рк - вероятность присутствия в к-й позиции набора разрешенных нуклеотидов по случайным причинам. Среди всех промоторов из обучающей выборки выбирается такой _)+, для которого значение Pj максимально, Р^=тах ф}.

Аналогичная процедура производится для всех последовательностей негативной выборки. Для них также находится последовательность, для которой характерно максимальное значение Рг.=тах {Рг}, где г - номер

г

последовательности из негативной выборки. Далее вычисляется величина Р=Р^-РГ.. Значение функции распознавания промотора Б определяется как: ГР, если Р > О [О, если Р < О

В том случае, когда Р>Рь, где Рь - граничное значение, последовательность, входящая в рассматриваемое окно, может быть отнесена к классу промоторов.

Анализ и распознавание промоторов коэкспрессирующихся групп генов эукариот

F =

Таблица 1. Характеристики ряда вырожденных олигонуклеотидных

мотивов в промоторах эритроид-специфичных генов. F - доля промоторов, содержащих мотив, Q - доля случайных последовательностей, содержащих мотив, P(n,N) - вероятность появления мотива по случайным причинам.

Нами проведен поиск мотивов длины /=8 в районе [-100;+20] промоторов эритроид-специфичных генов из базы данных ЕроББ. Полученные мотивы (таблица 1) значительно варьировали по степени вырожденности, представленности в промоторах, вероятности Р(п,К) и обладали ярко выраженной районспецифичностью.

Для понимания природы выявленных мотивов было проведено их сравнение с известными сайтами связывания транскрипционных

факторов (ССТФ) из баз данных Тгапз1ас (^^епёег е! а1., 1996) и ТЯЯО и показано сходство с ССТФ, которые играют важную роль в регуляции экспрессии генов эритропоэза. В то же время не для всех выявленных мотивов были найдены соответствующие ССТФ, что может объясняться как неполнотой существующих БД ТФ, так и тем, что такие мотивы могут соответствовать структурным сигналам. Располагаясь в определенных районах промоторов, подобные сигналы могут обеспечивать специфические конформационные и физико-химические

Мотив Район F Q PfeN)

RCCAATND -100:-50 0.59 0.02 10"

ATAWAARG -50:+1 0.48 0.00 10J4

TGACCAAT -100:-50 0.35 0.00 10J4

ANMNARKG -100:-50 0.54 0.08 10,ü

CAGCMNDD -75:-25 0.59 0.05 10"

GRSSNCAG -75:-25 0.51 0.03 10-.ь

NTCASCAK -75:-25 0.21 0.00 10-»

DGNATAWA -50:+1 0.59 0.01 10"

HDGNYCAS -50.+1 0.51 0.08 ю"

CTTCIGRN -25:+20 0.40 0.00 10-л

AAGGCCAN -25:+20 0.24 0.00 10"ls

особенности двойной спирали ДНК, значимые для функционирования промоторов.

30. * * * * *

0 V »

11 „1 . J 1 , 1, ,1 Jit. „,11 !

ооооооооооооооооооооооо

НГП1Л|^ОГМ'<ГГ>><Т>гН'Ч-и>ОООт1ЛГ.Ог>|'Ч-Г^<Т>1-< гг|чсст'г>>0о>гч>ла«гчтсогч1ПйЭтН1/>оог-1ч-гч.г-)

Рис. 2. Профиль значений функции распознавания промоторов Р (ось У) вдоль кластера | глобиновых генов человека (ось X).

Оценка информативности полученных мотивов и качества построенной на их основе функции распознавания F была проведена на последовательности кластера в-глобиновых генов человека (идентификатор в EMBL - HSHBB) длиной 73308 п.н., содержащей промоторы, которые являлись контролем и не входили в обучающую выборку. Из рисунка 2 видно, что все 5 позиций со значением F выше порогового уровня ^ь=10) соответствуют положениям стартов транскрипции в промоторах. Интересно, что одна из трех позиций, имеющих несколько повышенное значение F=9, локализована в 5'-районе псевдогена. Этот район имеет примерно тот же уровень гомологии с промоторами обучающей выборки, что и реальные промоторы кластера в-глобиновых генов. Однако, несмотря на усредненное контекстное сходство с реальными промоторами, псевдопромотор имеет значительно меньшее значение функции распознавания F. По-видимому, это является следствием фиксации в псевдопромоторе таких мутаций, которые привели к разрушению специфических сигналов (элементов), обеспечивающих эритроид-специфичную транскрипцию гена.

Таблица 2. Результаты анализа и распознавания промоторов

коэкспрессирующихся генов на основе наборов вырожденных олигонуклеотидных мотивов. N -количество последовательностей в выборке; К - количество выявленных мотивов.

Выборка N К Ошибка Ошибка

промоторов 1-го рода 2-го рода

Genes of 78 814 0.05 <10"5

endocrine system

Heat Shock- 34 45 0.09 2.3*10"*

inducible genes

Interferon- 41 131 0.07 <10°

inducible genes

Genes of Lipid metabolism 50 281 0.04 <ю*

Endocrine 78 814 0.05 <10"'

system genes

Сравнение качества распознавания промоторов эритроид-специфичных генов с помощью нескольких Интернет-доступных программ показало высокую эффективность предложенного нами метода. Аналогичным образом

был проведен анализ четырех выборок промоторов коэкспрессирующихся генов из базы данных TRRD и продемонстрировано высокое качество распознавания промоторов (таблица 2). Для распознавания рассмотренных промоторов коэкспрессирующихся генов в протяженных геномных последовательностях нами были написаны программы, вошедшие в Интернет-доступный пакет ARGO.

Анализ контекста района [-50; 1] ТАТА-содержащих и ТАТА-несодержащнх промоторов

Нами был проведен анализ контекста районов [-50;+1] ТАТА-содержащих (ТАТА+) и ТАТА-несодержащих (ТАТА-) промоторов позвоночных из БД EPD и получены наборы вырожденных олигонуклеотидных мотивов и соответственно. Для каждого

мотива из этих наборов строился профиль распределения частоты его появления вдоль района [-300;+100] промоторов (ТАТА+) и (ТАТА-) путем расчета коэффициента представленности этого мотива в 15

перекрывающихся окнах размером 50 п.н., на которые разбивались промоторы. Здесь f+ - доля промоторов, а f. - доля случайных последовательностей, содержащих этот мотив в соответствующем окне.

Анализ профилей представленности F (рис. 3), показывает, что представленность ТАТА-подобных мотивов в районах [-175;-75] и [+1;+100] промоторов (ТАТА-) значительно снижена. Видимо, появление по случайным причинам ТАТА-подобных сигналов в этих районах может нарушить процесс корректной сборки и позиционирования транскрипционного комплекса.

Рис. 3. Профиль распределения значения F (ось Y) для типичных мотивов из Мтата+ и

МтАТА- ВДОЛЬ

последовательностей (ТАТА+) и (ТАТА-) промоторов (ось X):

о - распределение HTWWWW (типичный представитель Мтата+ мотивов) вдоль последовательностей (ТАТА+) промоторов;

• - распределение HTWWWW вдоль последовательностей (ТАТА-) промоторов; □ - распределение DGGVDSDG (типичный представитель Мтата- мотивов) вдоль последовательностей (ТАТА-) промоторов; и

■ -распределение DGGVDSDG вдоль последовательностей (ТАТА+) промоторов.

В то же время появление такого сигнала в районе [-50;-25] промоторов (ТАТА-) находится на нейтральном уровне и, видимо, не оказывает негативного влияния на корректную сборку транскрипционного комплекса. Нейтральная представленность ТАТА-подобных сигналов в районе [-175;-75]

промоторов (ТАТА+) и значительно пониженная их представленность в районе [+1;+100] позволяет сделать вывод о том, что наибольший вклад в сборку и позиционирование транскрипционного комплекса вносит наиболее 3'-расположенный в промоторе ТАТА-подобный сигнал.

Анализ и распознавание сайтов связывания транскрипционых факторов

Мы провели поиск вырожденных олигонуклеотидных мотивов в выборке сайтов связывания транскрипционного фактора SF1, лежащего в прямой и обратной ориентациях (таблица 3).

Таблица 3. Характеристики рада вырожденных олигонуклеотидных мотивов в последовательностях сайтов связывания SF1, лежащих в прямой (а) и обратной (Ь) ориентации. F - доля сайтов, содержащих мотив; P(n,N) - вероятность появления мотива

по случайным причинам.

а Мотив Район сайта SF1 F P(n,N) Ь Мотив Район сайтаSF1 F P(n,N)

WYTNYCAS -45: -25 0.36 10a GGNGGAGG -50: -30 021 10'

CNGSMNCT -30:-10 0.36 10v KKKGNGAG -50: -30 0 30 104

NYCAAGGY -10:+10 0.68 10" NRDCCTIG -10:+10 0.69 10JU

RAGGTCMH -10:+10 0.68 Ю-3' CCTTGWCN -10: +10 0.52 10-"

CAWGGYNM -10:+10 0 45 10" YCYRGRKN +20: +40 047 10"

AAGGTCNN -5:+15 045 10" RYYCWGGN +25J+45 0.34 10'J

Большая часть полученных мотивов (рис. 4), как и ожидалось для обеих выборок, располагается в районе [-10;+10] относительно центра сайта и соответствует консенсусу сайта SF1. Хотя некоторое количество значимых различающихся мотивов было найдено и в районе [-40;-15] сайтов SF1, расположенных в обеих ориентациях, наибольшие различия наблюдались в районах [+20;+40] этих выборок. Так, если в 3'-районе прямо ориентированных сайтов не было найдено значимых мотивов, то в 3'-районе обратно ориентированных сайтов SF1 располагалось более трети всех выявленных для него мотивов. Поиск в БД ТгатзТас и TRRD показал, что такие мотивы имеют значимое контекстное сходство с ССТФ NF1. Этот результат находится в соответствии с ранее полученными данными (Busygina й а1., 2003) о том, что ТФ NF1 также участвует в регуляции экспрессии генов стероидогенеза.

Рис.4. Распределение доли выявленных олигонуклеотидных мотивов (ось У) вдоль последовательностей сайтов БП (ось X), лежащих в прямой (сплошная линия) и обратной (пунктирная линия) ориектациях.

Хотя ранее для сайта БР1 не было показано существования композиционного элемента,

полученные результаты позволяют предположить, что присутствие ТФ ЫБ! в этом районе необходимо для

-40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40

функционирования 8Б1, лежащего в обратной ориентации.

На основе полученных мотивов был предложен метод распознавания ССТФ 8Б1. Проведенная оценка качества распознавания в сравнении с другими Интернет-доступными программами показала высокую эффективность предложенного нами подхода (таблица 4).

Таблица 4. Сравнение качества распознавания сайтов связывания разными методами.

Метод Ошибка Ошибка

распознавания 1-го рода 2-го рода

ARGO 0.09 2.3*10"4

TFSitescan 0.75 2.4* Ю-4

(Ghosh, 1999)

Matlnspector (Quandt, 1995) 0.33 1.2*10°

Аналогичным образом с помощью системы ARGO был проведен анализ 12 выборок других ССТФ из БД TRRD и для большей их части показано высокое качество распознавания ССТФ.

ГЛАВА III. ИССЛЕДОВАНИЕ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ РАЙОНОВ СТАРТА ТРАНСЛЯЦИИ И РАЙОНОВ ТЕРМИНАЦИИ ТРАНСЛЯЦИИ Saccharomyces cerevisiae

Известно, что структура 5'-, З'-нетранслируемых районов мРНК эукариот, характер контекста и присутствие специфичных регуляторных элементов может оказывать значительное влияние на эффективность трансляции мРНК (Kozak, 2002; Matushkin et al., 2003; Kochetov et al., 2001).

Нами были исследованы последовательности районов стартового и стоп-кодонов для 6741 мРНК дрожжей из БД TransTerm. Величины индекса адаптации кодонов CAI для каждой мРНК были взяты из той же БД. В ряде работ (Sharp and Li, 1987) было показано, что этот индекс отражает уровень соответствия между частотным составом синонимичных кодонов в кодирующих районах мРНК и концентрацией мажорных фракций тРНК в клетке и для дрожжей CAI может являться хорошим маркером уровня экспрессии мРНК в клетке. Нами были построены тринуклеотидные весовые матрицы описывающие контекст старта транскрипции и района

терминации М,^ з- для высоко- (СА1>0.5) и низкоэкспрессирующихся (CAI<0.055) фракций мРНК в сравнении со случайными последовательностями. Позиционные веса рассчитывались как:

Здесь fb¿ - частота присутствия тринуклеотида b в позиции к в обучающей выборке последовательностей, - частота его присутствия в выборке негативных последовательностей. При этом

2,ecMufttlett>\00 _ -2,если f t J Qht< 0.01

W„ =

Сравнение полученных матриц выявило значительные различия в представленности ряда тринуклеотидов в 5'-районах высоко- и

10

низкоэкспрессирующихся мРНК. В частности, AUG (рис.5) отсутствует практически во всем 5'-районе высокоэкспрессирующихся мРНК. В низкоэкспрессирующихся мРНК такой запрет практически отсутствует. Этот результат подтверждает тот известный факт, что множественное присутствие AUG в окружении старта транскрипции может приводить к появлению ложных стартов транскрипции и для высокоэкспрессирующихся фракций мРНК крайне не выгодно (Kochetov et al. 1998). Значительные различия позиционных весов наблюдались и в контексте стоп-кодона.

Для детального анализа нами построены контрастные весовые матрицы Мсспо- 5' и МС0П1г_з', в которыхрассчитывались на основе выборок высоко-, а еьк - низкоэкспрессирующихся мРНК. С их помощью была сделана попытка выявить зависимости между контекстами старт- и стоп-кодонов мРНК. Оказалось, что при рассмотрении всей совокупности последовательностей мРНК зависимости между этими величинами не наблюдается. В то же время при рассмотрении только фракции высокоэкспрессирующихся мРНК (СА1>0.3) выявлена значимая корреляция (рис. 6, черные кружки) между контекстом 5'- и З'-нетранслируемых районов мРНК.

Порог СА!=0.3 взят из работы (Kochetov et al., 2001), в которой нами было показано, что олигонуклеотидный состав последовательностей 5'-районов мРНК дрожжей с СА]>0.3 ведет себя сходным образом по сравнению с остальными последовательностями. Таким образом, в ходе эволюции геномов дрожжей именно для высокоэкспрессирующихся мРНК установлена взаимозависимость контекстов стартового кодона, кодирующего района и стоп-кодона. Для исследования механизмов установления подобных зависимостей мы использовали метод имитационного моделирования -генетический алгоритм. Рассматривалась эволюция популяции последовательностей мРНК, состоящих из 5'-района, кодирующего района и 3'-района, под действием рекомбинаций, одиночных нуклеотидных замен и отбора, направленного на повышение эффективности трансляции F в рамках модели лимитирующего звена, рассчитываемой как:

F = mm CAI (coding _region).

Здесь Score(5'-region) и Score(3'-region) - веса 5'- и 3'-районов, вычисляемые с помощью соответствующих контрастных весовых матриц; CAI(coding_region) - индекс адаптации кодонов.

Трансляция мРНК включает три последовательных процесса: инициацию, элонгацию и терминацию, определяющие выход конечного продукта - белка. Известно, что модель лимитирующего звена является хорошим методом аппроксимации для описания подобных линейных процессов без разветвлений (Poletaev, 1973; Ratner, 1990). Понятно, что чем больше каждая из величин Score(5 '-region), Score(3'-region) и CAI(coding_region), тем выше эффективность протекания каждого их трех указанных процессов. Однако в рамках модели лимитирующего звена итоговая эффективность трансляции мРНК определяется скоростью самого медленного из этих процессов, то есть наименее эффективным звеном.

Результаты моделирования (рис. 6, белые кружки) показали, что в области значений СА]>0.3 поведение моделированных мРНК воспроизводит реальную картину взаимозависимости между контекстными особенностями 5'-, З'-нетранслируемых районов высокоэкспрессирущихся мРНК.

ГЛАВА IV. АНАЛИЗ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ КОДИРУЮЩИХ РАЙОНОВ ГЕНОВ

Для анализа кодирующих районов генов эукариот нами предложен метод функциональной классификации нуклеотидных последовательностей на основе словарей инвариантных олигонуклеотидов. Рассмотрим функциональное семейство нуклеотидных последовательностей содержащее М последовательностей длины L. Олигонуклеотидным словарем j-ой последовательности назовем полный набор олигонуклеотидов W* заданной длины l для этой последовательности. Тогда словарь W

инвариантных олигонуклеотидов семейства 8 определяется как пересечение словарей МУ1 всех последовательностей этого семейства:

Нами были проанализированы. 322 изофункциональных семейства белок-кодирующих генов и построены наборы инвариантных олигонуклеотидов, характеризующих эти семейства. Статистическая значимость полученных словарей оценивалась на основе предложенного нами критерия.

Таблица 5. Параметры ряда семейств изофункциональных генов и характеристики их неслучайных олигонуклеотидных словарей._

HraaHHe ccMcftcroa Д<1нна (П«> J OMO- ЛОГИЯ (%) Кол-во поел, (шт) НаАдено инвар, олнго. нуклео-тидов, Мшт) Ожидаечое число инвар, олигонуклеотидов, <ШТ) Верхняя граница доверительного интервала. Ко, (UIT) Доля инвар, олиго. нуклео-тидов.С <%) Доля вариабельных позиций, Q ("/•) J 1сравно-мерностъ G

factorix 634 64 5 68 И 19 11 26 0.89

alcalme phosphatase 1414 92 7 164 38 53 12 24 0.77

egg-laying hormone 631 77 5 548 И 19 87 1.6 0.72

flagclhn 1711 87 6 322 53 71 19 29 1.2

glucooortic oid receptor 2218 86 6 725 84 107 33 16 1.12

phosphogly cerate kinase 1243 70 7 606 30 44 49 21 2.8

ptlm 469 78 5 80 8 15 17 38 1.5

cnv«gcne 2392 77 9 134 97 122 5.6 43 0.92

prcapolipop rotcin E 907 78 5 102 18 29 И 33 1

collagcn 811 60 5 47 15 25 5.8 53 0.85

ceil surface glycoprotein 706 79 10 30 13 22 4.2 36 0.88

ml protein 757 94 6 231 14 23 30.5 14 0.93

В том случае, если для семейства S не удавалось построить статистически значимого словаря, это семейство с помощью процедуры кластеризации разбивалось на несколько подсемейств, для каждого из которых строился свой олигонуклеотидный словарь. В результате было получено 450 наборов инвариантных олигонуклеотидов, описывающих семейства и подсемейства изофункциональных генов (таблица 5). Нами предложен метод функциональной классификации генов, кодирующих белки, на основе олигонуклеотидных словарей, использующий статистическое решающее правило для отнесения последовательности X к классу S:

Ге S,eaiuR(S) > Ко Sequence Х<

[й S,eaiuR(S) < Ко

Здесь R(S) - число олигонуклеотидов из словаря W семейства S, найденных в последовательности X, а Ко - верхнее пороговое значение, определяемое уровнем значимости а. Ошибка первого рода, оцененная для предложенного нами подхода с помощью метода jack-knife (Efron and

TibsЫraш, 1991), не превышает 10-14%, а ошибка второго рода составляет от 2 до 3 ложных отнесения на одну контрольную последовательность.

Эволюционные характеристики семейства изофункциональных генов, определяющие размер олигонуклеотидного словаря

Для каждого из 450 сконструированных классов была рассчитана наблюдаемая доля инвариантных олигонуклеотидов С=11/(Ь-1+1) как отношение величины Я наблюдаемого количества инвариантных олигонуклеотидов длины I к максимально возможному количеству инвариантных олигонуклеотидов такой длины для семейства выровненных последовательностей средней длины Ь Результаты расчетов демонстрировали существенное варьирование величины С от семейства к семейству генов (таблица 5).

Для выяснения природы факторов, обусловливающих большой размах изменения величины С, мы рассмотрели модель, позволившую получить оценки ожидаемой доли инвариантных олигонуклеотидов С* для семейства выровненных нуклеотидных последовательностей длины L. Рассматривая набор выровненных последовательностей, будем говорить, что некоторая позиция выравнивания содержит нуклеотидную замену, если в ней встречается больше одного варианта нуклеотида. Ожидаемая доля инвариантных олигонуклеотидов может быть оценена (Zharkikh and Rzhe

C'(L,V,/) = ClJCL ~ 0 "б/ •

Здесь 0=У/Ъ - доля вариабельных позиций при выравнивании. Из рисунка 7 можно видеть в целом хорошую степень соответствия наблюдаемых величин с ожидаемыми. То есть наиболее существенным фактором, определяющим количество инвариантных олигонуклеотидов в словаре семейства, является доля промутировавших позиций.

В то же время наблюдаются определенные отклонения наблюдаемых величин С от теоретических. Проведенный анализ показал, что следующим фактором, вносящим значительный вклад в определение размеров олигонуклеотидного словаря семейства, является степень неравномерности

14

распределения промутировавших позиций вдоль последовательностей семейства генов. В этом случае при сближенном распределении промутировавших позиций в последовательности могут иметь место эффекты "интерференции" между ними, то есть чем больше "сгущений" в расположении промутировавших позиций, тем меньше при прочих равных условиях будет элиминировано инвариантных олигонуклеотидов из их полного списка. Для оценки этой неравномерности мы использовали параметр С = Б/Х. Здесь X - среднее расстояние между промутировавшими позициями, а - стандартное отклонение величины X. Проведенный анализ выявил достоверную корреляцию между величиной отклонения С от ожидаемого С* и величиной отклонения О от ожидаемой 1 (рис. 8). я = 075 0.15 - 1«,

Рнс. 8. Зависимость между величинами (1-С) Рис. 9. Зависимость ожидаемой доли (ось X) и (С -С) (ось У). инвариантных олнгонуклеотидов С (ось

У) от наблюдаемой С (ось X).

Тогда ожидаемая доля С** может быть рассчитана с учетом доли вариабельных позиций Q и неравномерности распределения мутаций G как:

С" =0.853 *(1-0' +0.145 0.087. Эта формула достоверно описывает наблюдаемую картину (рис. 9). Таким образом, именно доля вариабельных позиций и неравномерность распределения мутаций являются определяющими факторами, влияющими на размер словарей инвариантных олигонуклеотидов изофункциональных семейств генов.

Выводы

1. Разработан метод выявления наборов вырожденных олигонуклеотидных мотивов, специфичных для регуляторных последовательностей генов эукариот, реализованный в виде Интернет-доступного пакета программ ARGO (http://wwwmgs2.bюnetasc.ru:8080/argo/), включающего программу распознавания этих последовательностей на основе выявленных олигонуклеотидных мотивов.

2. Проведен анализ 13 групп сайтов связывания транскрипционных факторов и 5 групп промоторов коэкспрессирующихся генов эукариот. В каждой из указанных групп регуляторных элементов выявлены район-специфичные вырожденные олигонуклеотидные мотивы. Показано высокое качество распознавания регуляторных элементов на основе выявленных олигонуклеотидных мотивов.

3. Проведен сравнительный анализ района [-50; 1] ТАТА-содержащих и ТАТА-несодержащих групп промоторов. В каждой из указанных групп промоторов выявлены районспецифичные вырожденные олигонуклеотидные мотивы. Показан специфический характер распределения ТАТА-подобных мотивов вдоль промоторов обеих групп.

4. На основе анализа контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей построены контрастные тринуклеотидные весовые матрицы. Показаны значительные различия распределения тринуклеотидов в 5'-, З'-нетранслируемых районах высоко- и низкоэкспрессирующихся мРНК дрожжей.

5. Выявлена зависимость между контекстом 5'- и З'-нетранслируемых районов мРНК с высоким уровнем экспрессии. С помощью компьютерного моделирования эволюции 5'-, З'-нетранслируемых районов мРНК дрожжей показано, что эта зависимость может объясняться в рамках модели лимитирующего звена.

6. Разработан пакет программ для выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов, и с его помощью проанализировано 322 изофункциональных семейства генов, кодирующих белки. Показано, что основными эволюционными характеристиками, влияющими на количество выявленных специфических олигонуклеотидов, являются неравномерность распределения мутаций и их количество.

Основные результаты диссертации опубликованы в работах

1. Vishnevsky O.V., Ignaticva E.V., Arrigo P., The ARGO_SITES: an analysis and recognition of the transcription factor binding sites based on sets of degenerate oligonucleotide motifs // Proc. or the Fourth Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk. 2004. V.I. P.204-207.

2. Pozdnyakov MA, Orlov Yu.L., Vishnevsky O.V., Proscura A.L., Vityaev E.E., Arrigo P., Analysis of gene regulatory sequences by knowledge discovery methods // Proc. or the Fourth Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk. 2004. V.I. P.I 70-173.

3. Vishnevsky O.V., Anan'ko E.A., Ignatieva E.V., Podkolodnaya O.A, Stepanenko I.V., Argo_viewer: a package for recognition and analysis of regulatory elements in eukaryotic genes // "BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE." / Ed. N.KOLCHANOV and R. HOFESTAEDT, KluwerAcad. Publi., Boston/Dordrecht/London, 2003. P.71-81.

4. Vishnevsky O.V., Avdeeva I.V., and Kochetov A.V., Study of the specific contextual features of translation initiation and termination sites in saccharomyces cerevisiae // In: "BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE." / Ed. N.KOLCHANOV and R. HOFESTAEDT, Kluwcr Acad. Publi., Boston/Dordrecht/London, 2003. P.213-223.

5. Kolchanov N.A., Pozdnyakov MA, Orlov Yu.L., Vishnevsky O.V., Podkolodny N.L., Vityaev E.E., Kovalerchuk B. Computer System "Gene Discovery" for Promoter Structure Analysis. // Artificial Intelligence and Heuristic Methods in Bioinformatics / Eds: P. Frasconi and R. Shamir, IOS Press, 2003. P. 173-192.

6. Колчанов НА., Подколодная ОА Ананько ЕА., Афонников Д.А., Вишневский О. В., Воробьев Д.В., Игнатьева Е.В., Левицкий В.Г., Лихошвай ВА., Омельянчук Н.А., Подколодный НЛ., Ратушный А.В., Интегрированная компьютерная система по регуляции экспрессии генов эукариот // Молекулярная Биология. 2003. Т.38. С.69-81.

7. Vishnevsky O.V., Ananko EA, Ignatieva E.V., Podkolodnaja OA, Stepanenko I.L., Vityaev E.E, ARGO_viewer: a system for recognition and analysis of gene regulatory elements in eukaryotes // Proc. or the Third Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk. 2002. V.I. P.62-64.

8. Vishnevsky O.V., Avdeeva I.V., Kolchanov NA Study of the Specific Contextual Features of Translation Initiation and Termination Regions in Eukaryotes // Proc. or the Third Intern. Conf. on Bioinformatics ofGenome Regulation and Structure. Novosibirsk. 2002. V.3. P.72-76.

9. Kolchanov N.A., Podkolodny N.L., Ananko EA, Ignatieva E.V., Podkolodnaya OA, Stepanenko I.L., Merkulova T.I., Lavryushev S.V., Grigorovich D.A., Kochetov A.V., Orlova G.V., Titov 1.1., Vishnevsky O.V., Orlov Yu.L., Ivanisenko VA, Vorobiev D.G., Oshchcpkov D.Yu., Omelyanchuk N.A., Pozdnyakov M.A., Afonnikov D.A., Matushkin Yu.G., Likhoshvai V.A., Ratushny A.V., Katokhin A.V., Turnaev I.I., Proskura A.L., Suslov V.V., Nedosekina E.A., Geneexpress-2002: an integrated system on gene expression regulation // Proc. or the Third Intern. Conf. on Bioinformatics ofGenome Regulation and Structure. Novosibirsk. 2002. V.3, P.232-234.

10. Vityaev E.E., Orlov Yu.L., Vishnevsky O.V., Pozdnyakov MA, Kolchanov N.A Computer system "Gene Discovery" for promoter structure analysis // In Silico Biology. 2002. V.2. P.233-247.

11. Вишневский О.В., Витяев Е.Е.. Анализ и распознавание промоторов эритроид - специфичных генов на основе наборов вырожденных олигонуклеотидных мотивов // Молекулярная Биология. 2001. Т.35, С.979-986.

12. Витяев Е.Е., Орлов Ю.Л., Вишневский О.В., Беленок АС., Колчанов Н.А Компьютерная система "GENE DISCOVERY' для поиска закономерностей организации регуляторных последовательностей эукариот // Молекулярная биология. 2001. Т.35. С.952-960.

13. Кочетов Л. В., Григорович Д. А, Титов И. И., Воробьев Д. Г., Сырник Л., Вишневский О.В., Сараи А., Колчанов Н. А.. Компьютерная система mRNA-FAST (mRNA - Function, Activity, Structure) // Молекулярная Биология. 2001. Т.35. С. 1039-1047.

14. Vityaev E.E, Podkolodny N.L., Vishnevsky O.V., Kosarev P.S., Ananko EA, Ignatieva E.V., Podkolodnaya O.A., Kolchanov N.A. Detecting patterns of structure-function organization of regulatory genomic sequences in a first order logic // Proc. or the Second Intern. Conf. on Bioinformatics ofGenome Regulation and Structure. Novosibirsk. 2000. V.I. P.150-152.

15. Babenko V.N. Kosarev P.S., Vishnevsky O.V., Levitsky V.G., Basin V.V., Frolov A.S. A computer tool for investigating extended regulatory regions ofgenomic DNA sequences // Bioinformatics. 1999. V.I5. P.644-653.

16. Vishnevsky O. V., Podkolodnaya OA, Babenko V.N. Search for degenerate oligonucleolide motifs in transcription factor binding sites and eukaryotic promoters (the system ARGO) // Proc. or the First Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk. 1998. V.I. P.I 44146.

17. Игнатьева Е.В., Меркулова Т.И., Вишневский О.В., Кель А.Е. Регуляция транскрипции генов липидного метаболизма, описание в TRRD // Молекулярная Биология. 1997. Т. 31. С.684-700.

18. Kel A.E., Kel O.V., Vishnevsky O.V., Ponomarenko M.P., Ischenko I.V., Karas H., Kolchanov N.A., Sklenar H., Wingender E.. TRRD and COMPEL databases on transcription linked to TRANSFAC as tools for analysis and recognition of regulatory sequences // Special issue for Lecture Notes of Computer Science, Leipzig, September/October 1996 Selected Papers / Eds: R. Hofestaedt, T. Lengauer, M. Loeffler, D. Schomburg. Springer-Verlag, Berlin, Heidelberg, New York, P.99-105.

19. Колчанов Н.А., Бабенко В.Н., Вишневский О.В., Кель А.Э. Олигонуклеотидные словари изофункциональных семейств генов, кодирующих белки //Докл. Акад. Наук РАН. 1996. Т.348. С.696-699.

20. Kolchanov N.A., Vishnevsky O.V., Babenko V.N., Kel A.E., Shyndyalov I.N., Identification of cDNA sequences by specific oligonucleotide sets. Computer tool and application // Proc. of the Third Intern. Conf. on Intellegent Systems for Molecular Biology, AAAI Press, Menlo Park, Kalifornia, 1995. P.206-214.

Подписано к печати 03.09.2004 г.

Формат бумаги 60 х 90 1/16. Печ. л. 1. Уч.изд.л. 0,7

Тираж 110 экз. Заказ 100.

Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, проспект академика Лаврентьева, 10.

№168 16

Содержание диссертации, кандидата биологических наук, Вишневский, Олег Владимирович

Введение.

ГЛАВА I. ОБЗОР ЛИТЕРАТУРЫ.

1.1. Регуляторные последовательности, контролирующие экспрессию генов эукариот, транскрибируемых РНК полимеразой II.

1.1.1. Классы ДНК последовательностей, управляющие транскрипцией РНК полимеразой II.

1.1.2. CpG острова в промоторах эукариот.

1.1.3. Организация хроматина влияет на функционирование промоторов генов, транскрибируемых РНК полимеразой II.

1.1.4. Перестройка структуры хроматина в районе промотора необходимая для эффективной инициации транскрипции.

1.1.5. Формирование преинициационного комплекса.

1.1.5.1. Распознавание промотора фактором TFIID.

1.1.5.2. ТВР-ассоциированные белки.

1.1.5.3. Структура TFIID подобна гистоновому октамеру.

1.1.5.4. Распознавание TFIIB комплекса TFIID-промотор.

1.1.5.5. Роль TFIIА в формировании преинициационного комплекса.

1.1.5.6. Роль TFIIF в инициации транскрипции.

1.1.5.7. TFIIE и TFIIH завершают формирование преинициационного комплекса.

1.1.6. Инициация синтеза пре-мРНК.

1.2. Механизмы регуляции трансляции.

1.3. Компьютерные методы выявления сайтов связывания транскрипционных факторов.

1.3.1. Компьютерные методы выявления сайтов связывания транскрипционных факторов в выравненных последовательностях.

1.3.2. Компьютерные методы выявления сайтов связывания транскрипционных факторов в невыравненных нуклеотидных последовательностях.

1.3.3. Методы выявления сайтов связывания транскрипционных факторов на основе локального множественного выравнивания регуляторных последовательностей.

1.4. Компьютерные методы распознавания и анализа промоторов в протяженных геномных последовательностях.

1.4.1. Распознавание промоторов на основе информации о потенциальных сайтах связывания транскрипционных факторов.

1.4.2. Распознавание промоторов на основе анализа частот олигонуклеотидов (к-плетов).

1.5. Методы распознавания структуры генов.

1.6. Способы оценки точности методов предсказания функциональных элементов в генетических последовательностях. 59 Заключение к обзору литературы.

ГЛАВА II. АНАЛИЗ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ РЕГУЛЯТОРНЫХ РАЙОНОВ ГЕНОВ ЭУКАРИОТ.

2.1. Разработка метода выявления контрастных районспецифичных мотивов.

2.2. Метод распознавания регуляторных районов генов (РРГ) эукариот на основе наборов вырожденных олигонуклеотидных мотивов

2.3. Анализ и распознавание промоторов тканеспецифичных групп генов эукариот на основе наборов несовершенных олигонуклеотидных мотивов

2.3.1. Анализ и распознавание промоторов эритроид-специфичных групп генов

2.3.1.1. Поиск олигонуклеотидных мотивов в промоторах

2.3.1.2. Распознавание промоторов в кластере Р-глобиновых генов.

2.3.2. Анализ и распознавание промоторов тканеспецифичных групп генов из БД TRRD

2.4. Анализ ТАТА-содержащих и ТАТА-несодержащих промоторов на основе наборов вырожденных олигонуклеотидных мотивов

2.5. Анализ и распознавание сайтов связывания транскрипционых факторов на основе наборов вырожденных олигонуклеотидных мотивов

2.5.1. Поиск вырожденных олигонуклеотидных мотивов в последовательностях сайта связывания SF1.

2.5.2. Анализ и распознавание многокоровых сайтов связывания транскрипционных факторов эукариот.

2.5.3. Анализ и распознавание сайтов связывания транскрипционных факторов эукариот.

ГЛАВА III. ИССЛЕДОВАНИЕ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ РАЙОНОВ СТАРТА ТРАНСЛЯЦИИ И РАЙОНОВ ТЕРМИНАЦИИ ТРАНСЛЯЦИИ S. cerevisiae.

3.1. Анализ 5'-, З'-нетранслируемых районов мРНК S.cerevisiae.

3.1.1. Последовательности, использованные в анализе.

3.1.2. Поиск вырожденных олигонуклеотидных мотивов в 5'-, З'-нетранслируемых районах мРНК S. cerevisiae.

3.1.3. Классификация мРНК на основе олигонуклеотидного контекста 5'-нетранслируемого района мРНК.

3.1.4. Анализ 5'- и З'-нетранслируемых районов мРНК с помощью тринуклеотидной весовой матрицы.

3.2. Применение имитационного моделирования для анализа эволюционных характеристик мРНК.

ГЛАВА IV. АНАЛИЗ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ КОДИРУЮЩИХ РАЙОНОВ ГЕНОВ.

Использование наборов коротких олигонуклеотидных мотивов для анализа кодирующих районов генов эукариот: функциональная классификация нуклеотидных последовательностей на основе словарей инвариантных олигонуклеотидов.

4.1. Метод функциональной классификации нуклеотидных последовательностей на основе словарей инвариантных олигонуклеотидов.

4.2. Метод построения статистически неслучайных олигонуклеотидных словарей для функциональных семейств ДНК (РНК)

4.3. Оценка значимости олигонуклеотидного словаря.

4.4. Разбиение на подсемейства с одновременным построением олигонуклеотидных словарей

4.5. Нуклеотидные последовательности использовавшиеся в анализе.

4.6. Построение статистически неслучайных олигонуклеотидных словарей для изофункциональных семейств генов, кодирующих белки

4.7. Функциональная классификация генов, кодирующих белки, на основе олигонуклеотидных словарей

4.8. Оценки точности распознавания последовательностей изофункциональных семейств генов

4.9. Эволюционные характеристики семейства изофункциональных генов, определяющие размер олигонуклеотидного словаря

Введение Диссертация по биологии, на тему "Компьютерный анализ контекстной организации регуляторных и кодирующих районов генов эукариот на основе олигонуклеотидных мотивов"

Актуальность проблемы.

Успехи молекулярной биологии в области разработки методов крупномасштабного секвенирования (полной расшифровки) нуклеотидных последовательностей про- и эукариотических геномов привели к накоплению огромного количества экспериментальных данных. Суммарная длина секвенированных последовательностей ДНК и РНК составляет десятки миллиардов п.н. Полностью секвенированы геномные последовательности более 1000 видов вирусов, 175 видов бактерий, 19 видов археобактерий и 20 эукариотических организмов.

В связи с быстрым накоплением экспериментальных данных особую актуальность приобретает разработка эффективных компьютерных методов распознавания и анализа вновь расшифрованных последовательностей, выявления регуляторных и структурных элементов и анализа особенностей их организации (Baltimore, 2001). Использование таких подходов позволяет получить новую информацию о молекулярно-генетических механизмах функционирования и регуляции процессов жизнедеятельности организмов. Однако, несмотря на существование значительного числа программных ресурсов, направленных на распознавание генов и выявление их структуры, предсказание промоторов, сайтов связывания транскрипционных факторов и т.д., эти задачи остаются до конца не решенными (Claverie, 1997; Fickett and Hatzigeorgiou, 1997; Pedersen et.al, 1999; Zhang, 2002).

Специфичность олигонуклеотидного состава является характерной особенностью регуляторных и кодирующих районов генов эукариот, отражающей фундаментальные закономерности их структурно-функциональной организации. Методы, основанные на олигонуклеотидном анализе, широко используются при изучении и распознавании регуляторных (Pesole et al., 2000; Zhang, 1999; Zhu and Zhang, 2000; Atteson, 1998; Tompa, 1999; Sinha and Tompa, 2000; van Helden et al., 2000; Kielbasa et.al., 2001; Pevzner and Sze, 2000; Hutchinson, 1996; Solovyev and Salamov, 1997; Scherf et al., 2000) и кодирующих (Zhang, 1997; Solovyev et al. 1994; Xu et al., 1994) последовательностей генов.

Важным достоинством методов, основанных на олигонуклеотидном анализе, является то, что они не требуют множественного выравнивания при анализе наборов исследуемых последовательностей. При этом компьютерные алгоритмы, основанные на учете олигонуклеотидного состава, как правило, характеризуются высокой скоростью работы. Именно поэтому методы олигонуклеотидного анализа являются одними из наиболее эффективных и широко используемых подходов для распознавания и компьютерного анализа вновь расшифрованных геномных последовательностей.

Цели исследования.

Цель исследования - разработка методов анализа, распознавания и классификации регуляторных и кодирующих последовательностей генов, а также применение разработанных методов для изучения особенностей структурно-функциональной организации регуляторных и кодирующих районов.

Задачи исследования.

В ходе работы решались следующие задачи.

1. Разработка метода выявления олигонуклеотидных мотивов, специфичных для функциональных районов нуклеотидных последовательностей. Разработка метода распознавания функциональных районов на основе наборов олигонуклеотидных мотивов. Создание пакета программ, позволяющего производить поиск олигонуклеотидов заданной длины, вырожденности и значимости, а также проводить распознавание регуляторных районов заданного типа в произвольной протяженной последовательности.

2. Анализ промоторов коэкспрессирующихся групп генов, ТАТА-содержащих и ТАТА-несодержащих групп промоторов человека, сайтов связывания транскрипционных факторов, контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей, выявление функциональных мотивов, значимых для структурно-функциональной организации регуляторных районов.

3. Разработка метода выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов. Анализ выборок изофункциональных семейств генов и исследование эволюционных характеристик, влияющих на количество выявляемых олигонуклеотидов.

Методы исследования.

Выявление наборов вырожденных олигонуклеотидных мотивов и распознавание регуляторных районов проводилось с помощью разработанного нами программного пакета ARGO (Vishnevsky et al., 2003). Выборки промоторных районов и сайтов связывания транскрипционных факторов были получены из базы данных TRRD (Kolchanov et al., 2002), EPD (Perier et al., 2000) и EpoDB (Stoeckert et al., 1999). 5'- и 3'-нетранслируемые районы мРНК дрожжей были получены из базы данных Transterm

Dalphin et al., 1997). При анализе этих районов использовался метод тринуклеотидных весовых матриц.

Выявление наборов совершенных олигонуклеотидов, специфичных для кодирующих частей генов, проводилось с помощью разработанной нами программы (Kolchanov et al., 1995) в базе данных последовательностей кодирующих частей изофункциональных семейств генов.

Научная новизна работы.

В представленной работе предложен комплекс компьютерных методов, позволяющих исследовать широкий круг проблем структурно-функциональной организации регуляторных и кодирующих районов генов эукариот.

Предложен новый метод выявления наборов вырожденных олигонуклеотидных мотивов, специфичных для регуляторных элементов генов эукариот. Этот метод основан на кластеризации схожих совершенных олигонуклеотидов, входящих в состав различных регуляторных последовательностей с итерационным построением для каждого класса олигонуклеотидов результирующего консенсуса. Предложен новый метод распознавания регуляторных районов генов на основе олигонуклеотидных мотивов, основанный на сравнении представленности и характера распределения мотивов в рассматриваемой последовательности и последовательностях регуляторных районов генов. Методы реализованы в виде Интернет-доступного пакета программ ARGO.

Впервые проведен анализ промоторов ряда семейств коэкспрессирующихся генов из базы данных TRRD, для которых выявлены районспецифичные олигонуклеотидные мотивы, соответствующие как ранее известным сайтам связывания транскрипционных факторов, так и новым функциональным сигналам.

Проведен сравнительный анализ ТАТА-содержащих и ТАТА-несодержащих групп промоторов. В каждой из указанных групп промоторов выявлены районспецифичные вырожденные олигонуклеотидные мотивы. Впервые продемонстрированы некоторые особенности распределения ТАТА-подобных мотивов вдоль промоторов обеих групп.

Анализ сайта связывания транскрипционного фактора SF1 с помощью системы ARGO впервые показал возможность существования комплексного элемента, состоящего из сайта SF1, лежащего в обратной ориентации, и расположенного в 3'-фланкирующем районе сайта NF1.

На основе анализа контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей построены контрастные тринуклеотидные весовые матрицы. Показаны достоверные различия распределения тринуклеотидов в 5'-, З'-нетранслируемых районах высоко- и низкоэкспрессирующихся мРНК дрожжей. Впервые выявлена зависимость между контекстом 5'- и З'-нетранслируемых районов мРНК с высоким уровнем экспрессии. Впервые с помощью компьютерного моделирования эволюции 5'-, З'-нетранслируемых районов мРНК дрожжей эта зависимость объясняется в рамках модели лимитирующего звена.

Предложен новый метод и разработан пакет программ для выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов, и их классификации. Показано, что основными эволюционными характеристиками, влияющими на количество выявленных специфических олигонуклеотидов, являются неравномерность распределения мутаций и их количество.

Практическая ценность работы.

На основе оригинальных методов разработан Интернет-доступный пакет программ ARGO (http://wwwmgs2.bionet.nsc.ru:8080/argo/), предназначенный для выявления вырожденных олигонуклеотидных мотивов, классификации и распознавания регуляторных районов генов эукариот в протяженных геномных последовательностях. Проведенный анализ дает дополнительную информацию о структурно-функциональной организации промоторов, сайтов связывания транскрипционных факторов, кодирующих районов эукариот, 5'-и З'-нетранслируемых районов мРНК дрожжей. Система ARGO может быть использована для анализа и классификации вновь секвенированных геномных последовательностей.

Апробация работы.

Материалы работы были представлены на отчетных сессиях Института цитологии и генетики 1996, 1999 и 2002 года. Результаты работы были представлены на следующих научных конференциях: First, Second, Third, Fourth International Conferences on Bioinformatics of Genome Regulation and Structure, Novosibirsk, Russia, 1998, 2000, 2002, 2004; Втором сибирском конгрессе по прикладной и индустриальной математике, Новосибирск, Россия, 1996; II и III съездах ВОГиС, Санкт-Петербург 2000, Москва 2004, Россия; Школе молодых учёных по биоинформатике, Италия, сентябрь 2001; Third International Conference on Intelligent Systems for Molecular Biology, Menlo Park, USA, 1995.

Публикации.

По теме диссертации опубликовано 29 печатных работ, из них 23 в рецензируемых изданиях.

Структура работы.

Диссертационная работа состоит из введения, обзора литературы (первая глава), трех глав, содержащих основные результаты, выводов, списка цитированной литературы (382 ссылки). Работа изложена на 154 страницах, содержит 33 рисунка и 22 таблицы. Нумерация рисунков, таблиц и формул производится отдельно для каждой главы.

Заключение Диссертация по теме "Генетика", Вишневский, Олег Владимирович

Выводы

1. Разработан метод выявления наборов вырожденных олигонуклеотидных мотивов, специфичных для регуляторных последовательностей генов эукариот, реализованный в виде Интернет-доступного пакета программ ARGO (http://wwwmgs2.bionet.nsc.ru:8080/argo/), включающего программу распознавания этих последовательностей на основе выявленных олигонуклеотидных мотивов.

2. Проведен анализ 13 групп сайтов связывания транскрипционных факторов и 5 групп промоторов коэкспрессирующихся генов эукариот. В каждой из указанных групп регуляторных элементов выявлены районспецифичные вырожденные олигонуклеотидные мотивы. Показано высокое качество распознавания регуляторных элементов на основе выявленных олигонуклеотидных мотивов.

3. Проведен сравнительный анализ района [-50; 1] ТАТА-содержащих и ТАТА-несодержащих групп промоторов. В каждой из указанных групп промоторов выявлены районспецифичные вырожденные олигонуклеотидные мотивы. Показан специфический характер распределения ТАТА-подобных мотивов вдоль промоторов обеих групп.

4. На основе анализа контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей построены контрастные тринуклеотидные весовые матрицы. Показаны значительные различия распределения тринуклеотидов в 5'-, З'-нетранслируемых районах высоко- и низкоэкспрессирующихся мРНК дрожжей.

5. Выявлена зависимость между контекстом 5'- и З'-нетранслируемых районов мРНК с высоким уровнем экспрессии. С помощью компьютерного моделирования эволюции 5'-, З'-нетранслируемых районов мРНК дрожжей показано, что эта зависимость может объясняться в рамках модели лимитирующего звена.

6. Разработан пакет программ для выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофуикциональных семейств генов, и с его помощью проанализировано 322 изофуикциональных семейства генов, кодирующих белки. Показано, что основными эволюционными характеристиками, влияющими на количество выявленных специфических олигонуклеотидов, являются неравномерность распределения мутаций и их количество.

Заключение.

В настоящей работе представлен метод выявления наборов вырожденных квазиинвариантных олигонуклеотидных мотивов, специфичных для функциональных районов нуклеотидных последовательностей. Метод основан на кластеризации сходных олигонуклеотидов заданной длины из разных последовательностей в классы, с дальнейшим построением консенсусов для каждого класса. На его основе создан пакет программ ARGO (http://wwwmgs2.bionet.nsc.ru:8080/argo/). Этот пакет позволяет пользователю производить поиск олигонуклеотидов заданной длины, вырожденности и значимости.

Разработан метод распознавания регуляторных районов генов на основе наборов вырожденных мотивов. Метод основан на учете при классификации анализируемой последовательности степени вырожденности встреченных мотивов, характер их взаиморасположения на последовательности, а также уровень их взаимовстречаемости в позитивной выборке. На основе предложенного метода создана программа, позволяющая проводить распознавание в произвольной протяженной последовательности промоторных районов заданного типа или набора сайтов связывания транскрипционных факторов.

Эти методы использованы для анализа промоторов коэкспрессирующихся групп генов, ТАТА-содержащих и ТАТА-несодержащих групп промоторов человека, сайтов связывания транскрипционных факторов, контекста стартового и терминирующего кодонов мРНК высоко- и низкоэкспрессирующихся генов дрожжей. Результаты показали, что предложенные методы и программы позволяют выявлять контрастные мотивы, которые могут играть важную роль в структурно-функциональной организации этих регуляторных районов и являются эффективными характеристиками их распознавания.

Разработан метод выявления наборов совершенных олигонуклеотидов, специфичных для кодирующих частей изофункциональных семейств генов. На основе данного метода создана компьютерная программа и получены идентификационные наборы олигонуклеотидов.

Библиография Диссертация по биологии, кандидата биологических наук, Вишневский, Олег Владимирович, Новосибирск

1. Бусыгина Т.В., Игнатьева Е.В., Осадчук А. В. Регуляция транскрипции генов, контролирующих биосинтез стероидных гормонов: описание в базе данных ES-TRRD. // Успехи современной биологии. 2003. Т. 123. С. 364-382

2. Кочетов А.В., Григорович Д.А., Титов И.И., Воробьев Д.Г., Сырник А., Вишневский О.В., Сараи А., Колчанов Н.А. Компьютерная система mRNA-FAST (mRNA-Function, Activity, Structure) //Мол. Биол. 2001. T.35. C.1039-1047.

3. Полетаев И.А. Модели Вольтерра "жищник жертва" и некоторые их обобщения с использованием принципа Либиха. // Журнал общей биологии. 1973. Т.34. С.43-57.

4. Ратнер В.А. Концепция лимитирующих генетических факторов экспрессии, организации и эволюции. // Генетика. 1990. Т.26. С.789-803.

5. Храпко К., Чернов Б., Иванов И., Хорлин А., Лысов Ю., Флорентьев В. и Мирзабеков А. Гибридизация ДНК с нуклеотидами, гибридизованными в геле: удобный метод регистрации одиночных замен оснований. // Мол. Биол. 1991. Т.25. С.718-730.

6. Agalioti Т, Lomvardas S, Parekh В, Yie J, Maniatis T, Thanos D., Ordered recruitment of chromatin modifying and general transcription factors to the IFN-beta promoter. // Cell. 2000, V.103. P.667-678.

7. Allex C.F., Shavlik J.W. and Blattner F.R. Neural network input representations that produce accurate consensus sequences from DNA fragment assemblies. // Bioinformatics. 1999. V.15. P.723-726.

8. Altschul S.F., Boguski M.S., Gish W., Wooton J.C. Issues in searching molecular sequence databases. // Nature Genetics. 1994. V.6. P.l 19-129.

9. Ambros V. microRNAs: tiny regulators with great potential. // Cell. 2001. V.28. P.823-826.

10. Antequera F., Bird A., Number of CpG islands an genes in human and mouse. // Proc. Natl. Acad. Sci. US 1993. V.90. P.l 1995-11999.

11. Arents G, Moudrianakis E.N. The histone fold: a ubiquitous architectural motif utilized in DNA compaction and protein dimerization. // Proc Natl Acad Sci USA. 1995. V. 21. P. 11170-11174.

12. Arvesen, J. Jacknifing U-statistics. // Ann. Math. Statist. 1969. V.40. P.2076-2100.

13. Atteson K. Calculating the exact probability of language-like patterns inbiomolecularthsequences. // Proceedings of the 6 International Conference on Intelligent Systems for Molecular Biology (ISMB), 1998. P.17-24.

14. Auble D.T., Hansen KE, Mueller C.G., Lane W.S., Thorner J, Hahn S. Motl, a global repressor of RNA polymerase II transcription, inhibits TBP binding to DNA by an ATP-dependent mechanism. // Genes Dev. 1994. V.15.P. 1920-1934.

15. Bafiia V, Huson D.H. The conserved exon method for gene finding. // Proc Int Conf Intell Syst Mol Biol. 2000. V.8. P.3-12.

16. Bailey T.L. and Elkan C. Fitting a mixture model by expectation maximization to discover motifs in biopolymers. // Proceedings of the 2nd International Conference on Intelligent Systems for Molecular Biology (ISMB). 1994. P.28-36.

17. Bailey T.L. and Elkan C. Unsupervised learning of multiple motifs in biopolymers using expectation maximization. // Machine Learning. 1995. V.21.P.51-80.

18. Bailey T.L, Gribskov M. Methods and statistics for combining motif match scores. // J Comput Biol. 1998. V.5.P.211-221.

19. Bailey L.C., Searls D.B. and Overton G.C.: Analysis of EST-driven gene annotation in human genomic sequence. // Genome Res. 1998. V.8. P.362-376.

20. Bailey-Serres J. Selective translation of cytoplasmic mRNAs in plants. // Trends Plant Sci. 1999. V.4. P.142-148.

21. Bajic V.B., Comparing the success of different prediction software in sequence analysis: a review. // Brief Bioinform. 2000. V.l. P.214-228.

22. Baldi P., Brunak S., Chauvin Y., Andersen C. and Nielsen H., Assessing the accuracy of prediction algorithms for classification: an overview. // Bioinformatics. 2000 V.l6. P. 412-424.

23. Baltimore D. Our genome unveiled. //Nature. 2001. V.15. P.814-816.

24. Bartel D.P. MicroRNAs: genomics, biogenesis, mechanism, and function. // Cell. 2004. V.23. P. 281-297.

25. Bashirullah A., Cooperstock R.L and Lipshitz H.D. RNA localization in development // Annu. Rev. Biochem. 1998. V.67. P.335-394.

26. Basrai MA, Hieter P, Boeke J.D. Small open reading frames: beautiful needles in the haystack. // Genome Res. 1997. V.7. P.768-771.

27. Bate N., Spurr C., Foster G.D., Twell D. Maturation-specific translational enhancement mediated by the 5'-UTR of a late pollen transcript. // Plant Physiol. 1996. V.10. P.613-623.

28. Batzoglou S, Pachter L, Mesirov J.P, Berger B, Lander E.S. Human and mouse gene structure: comparative analysis and application to exon prediction. // Genome Res. 2000. V.10 P.950-958.

29. Bauer U.M, Daujat S, Nielsen S.J, Nightingale K, Kouzarides Т., Methylation at arginine 17 of histone H3 is linked to gene activation. // EMBO Rep 2002. V.3. P.39-44.

30. Belikov S, Gelius В and Wrange O, Hormone-induced nucleosome positioning in the MMTV promoter is reversible. // The EMBO Journal. 2001. V.20 P.2802-2811.

31. Berget, S.M. Exon recognition in vertebrate splicing. // J Biol Chem. 1995. V.270. P.2411-2414.

32. Bernardi, G., The human genome: organization and evolutionary history. // Annu. Rev. Genet. 1995. V.29. P.445-476.

33. Bird A., Functions for DNA methylation in vertebrates. // Cold Spring Harbor Symp. Quant. Biol. 1993. V.58. P.281-285.

34. Bird A., Tate P., Nan X., Campoy J., Meehan R., Cross S., Tweedle S., Charlton J., Macleod D., Studies of DNA methylation in animals. // J. Cell Sci. Suppl 1995. V.19. P.37-39.

35. Bird A.P, Wolffe A.P: Methylation-induced repression belts, braces, and chromatin. // Cell. 1999. V.99. P.451-454.

36. Birney E, Durbin R. Using Gene Wise in the Drosophila annotation experiment. // Genome Res. 2000. V.10. P. 547-548.

37. Bode J., Schlake Т., Rios-Ramirez M., Mielke C., Stengert M., Kay V., Klehr-Wirth D., Scaffold/matrix-attached regions: structural properties creating transcriptionally active loci. // Int. Rev. Cyt. 1995. V.162A. P.389-454.

38. Bode J., Stengert-Iber M., Kay V., Schlake Т., and Dietz-Pfeilstetter A. Scaffold/matrix-attached regions: Topological switches with multiple regulatory functions. // Crit. Rev. Eukaryot. Gene Expr. 1996. V.6. P. 115-138.

39. Bonfield J.K., Smith K.F., Staden R.A new DNA sequence assembly program. // Nucleic Acids Res. 1995. V.25. P.4992-4999.

40. Bogulsky M.S. The turning point in genome research . // Trends Biochem Sci. 1995, V.20. P.295-296.

41. Borodovsky M, Mclninch J. Recognition of genes in DNA sequence with ambiguities. // Biosystems. 1993. V. 30. P.161-171.

42. Bouck J, Yu.W, Gibbs R, Worley K. Comparison of gene indexing databases. // Trends Genet. 1999. V.15. P.159-162.

43. Boulikas Т., A compilation and classification of DNA binding sites for protein transcription factors from vertebrates. // Crit. Rev. Euk. Gene Express. 1994. 4,117-321.

44. Bradsher J.N, Tan S, McLaury H.J, Conaway J.W, Conaway RC. RNA polymerase II transcription factor SHI. II. Functional properties and role in RNA chain elongation. // J Biol Chem. 1993. V.5. P.25594-25603.

45. Brennecke J., Hipfner D.R., Stark A., Russell R.B., Cohen S.M. bantam Encodes a Developmentally Regulated microRNA that Controls Cell Proliferation and Regulates the Proapoptotic Gene hid in Drosophila. // Cell. 2003. V.l 13. P.25-36.

46. Brown C.E., Lechner Т., Howe L., and Workman J.L., The many HATs of transcription coactivators. // Trends Biochem. Sci. 2000. V.25. P. 15-19.

47. Brunak S., Engelbrecht J. and Knudsen S. Prediction of human mRNA donor and acceptor sites from the DNA sequence. // J. Mol. Biol., 1991. V.220. P.49-65.

48. Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. // J. Mol. Biol. 1990. V.212. P.563-578.

49. Bucher P, Trifonov EN. Compilation and analysis of eukaryotic POL II promoter sequences. //Nucleic Acids Res. 1986. V.22. P.10009-10026.

50. Buratowski S. The basics of basal transcription by RNA polymerase II. // Cell. 1994. V.77. P.l-3.

51. Burge C, Karlin S., Prediction of complete gene structures in human genomic DNA. // J Mol Biol. 1997. V.25. P.78-94.

52. Burge C.B., Tuschl T. and Sharp P.A. Splicing of precursors to mRNAs by the spliceosomes. // The RNA World—The Nature Of Modern RNA Suggests a Prebiotic

53. RNA. / Eds. Gesteland R.F., Cech T.R. and Atkins J.F. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1999. P.525-560.

54. Burke T.W, Kadonaga J.T., The downstream core promoter element, DPE, is conserved from Drosophila to humans and is recognized by TAFII60 of Drosophila. // Genes Dev. 1997. V.15. P.3020-3031.

55. Burke T.W, Kadonaga J.T. Drosophila TFIID binds to a conserved downstream basal promoter element that is present in many TATA-box-deficient promoters. // Genes Dev.1996. V.15. P.711-724.

56. Burley S.K, Roeder RG. Biochemistry and structural biology of transcription factor IID (TFIID). // Annu Rev Biochem. 1996. V.65. P.769-799.

57. Burset M, Guigo R. Evaluation of gene structure prediction programs. // Genomics. 1996. V.15. P.353-67.

58. Carrington J.C, Ambros V. Role of microRNAs in plant and animal development. // Science. 2003. V.18. P.3 36-338.

59. Cavener D.R. and Ray S.C. Eucaryotic start and stop translation sites. // Nucleic Acids Res. 1991. V.25. P.3185-3192.

60. Chang C, Kostrub C.F, Burton Z.F. RAP30/74 (transcription factor IIF) is required for promoter escape by RNA polymerase II. J Biol Chem. 1993. V.25. P.20482-20489.

61. Chen I.T, Chasin L.A. Large exon size does not limit splicing in vivo. // Mol Cell Biol. 1994. V.14. P.2140-2146

62. Chen Q.K., Hertz G.Z., and Stormo G.D. PromFD 1.0: A computer program that predicts eukaryotic pol II promoters using strings and IMD matrices. // Comput. Appl. Biosci.1997. V.13.P.29-35.

63. Chen C.Y. and Shyu A.B., AU-rich elements: characterization and importance in mRNA degradation, // Trends Biochem. Sci., 1995. V.20. P.465-470.

64. Chao D.M, Gadbois E.L, Murray P.J, Anderson S.F, Sonu M.S, Parvin J.D, Young R.A., A mammalian SRB protein associated with an RNA polymerase II holoenzyme. // Nature. 1996. V.7. P.82-85.

65. Chicas A, Macino G. Characteristics of post-transcriptional gene silencing. // EMBO Rep. 2001. V.2. P.992-996.

66. Chou P.Y, Fasman G.D. Prediction of the secondary structure of proteins from their amino acid sequence. // Adv Enzymol Relat Areas Mol Biol. 1978a. V. 47. P.145-148.

67. Chou P.Y, Fasman G.D. Empirical predictions of protein conformation. // Annu Rev Biochem. 1978. V.47. P.251-276.

68. Chu Vi.T., Adamidi C, Liu Q, Perlman P.S. and Pyle A.M, Control of branch-site choice by a group II intron. // The EMBO Journal. 2001. V.20. P.6866-6876.

69. Claverie J.M. Computational methods for the identification of genes in vertebrate genomic sequences. // Hum. Mol. Genet. 1997. V.6. P. 1735-1744.

70. Clemens M.J, Bommer U.A. Translational control: the cancer connection. // Int J Biochem Cell Biol. 1999. V.31. P. 1-23.

71. Clemens M.J, Bushell M, Jeffrey I.W, Pain Y.M and Morley S. Polypeptide chain initiation factor modifications and the regulation of translation in apoptotic cells. // Cell Death and Differentiation. 2000. V.7. P.603-615.

72. Cornish-Bowden A. Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. //Nucleic Acids Res. 1985. V.13. P.3021-3030.

73. Cote J, Dupuis S, Jiang Zhi-Hong, and Wu JY., Caspase-2 pre-mRNA alternative splicing:Identification of an intronic element containing a decoy 3' acceptor site. // Proc Natl Acad Sci U S A. 2001. V.98. P.938-943.

74. Craig J.M., Bickmore W.A., The distribution of CpG islands in mammalian chromosomes. //Nature Genetics. 1994. V.7. P.376-382.

75. Creancier L, Morello D, Mercier P, Prats A.C. Fibroblast growth factor 2 internal ribosome entry site (IRES) activity ex vivo and in transgenic mice reveals a stringent tissue-specific regulation. // J Cell Biol. 2000. V.10. P. 275-281.

76. Cross S.H., Bird A., CpG islands and genes. // Curr. Opin. Genet. Dev. 1995. 5, 309-314

77. Dahmus ME. The role of multisite phosphorylation in the regulation of RNA polymerase II activity. // Prog Nucleic Acid Res Mol Biol. 1994. Y.48. P.143-179.

78. Dalphin M.E, Brown C.M., Stockwell P.A., and Tate W.P. The translational signal database, TransTerm: more organisms, complete genomes. // Nucleic Acids Research. 1997. V.25. P.246-247.

79. Davie J.K, Dent S.Y: Transcriptional control: an activating role for arginine methylation. // Curr Biol. 2002. V.12. P.59-61.

80. Davies K.E. ed. Human genetic diseases: a practical approach. // IRL Press Limited: Oxford. 1986.

81. Day W.H, McMorris F.R. Critical comparison of consensus methods for molecular sequences. // Nucleic Acids Res. 1992. V.l 1. P. 1093-9.

82. Dillon N., Grosveld F., Chromatin domains as potential units of eukaryotic gene function. // Curr. Opin. Genet. 1994. Y.4. P.260-264.

83. Dempster A.P, Laird N.M and Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm. // J. R. Stat. Soc. Series B. 1977. Y.39. P.l-38.

84. Diaz-Lazcoz Y, Henaut A, Vigier P, Risler JL., Differential codon usage for conserved amino acids: evidence that the serine codons TCN were primordial., // J Mol Biol. 1995. V.7. P.123-127.

85. Drapkin R, Reardon J.T, Ansari A, Huang J.C, Zawel L, Ahn K, Sancar A, Reinberg D. Dual role of TFIIH in DNA excision repair and in transcription by RNA polymerase II. // Nature. 1994a. V.21. P.769-772.

86. Drapkin R, Reinberg D. The multifunctional TFIIH complex and transcriptional control. // Trends Biochem Sci. 1994. V.19. P.504-508.

87. Du H., Roy A.L. and Roeder R.G. Human transcription factor USF stimulates transcription through the initiator elements of the HTV-1 and the AdML promoters. // EMBO J. 1993. V.12. P.501-511.

88. Duret L, Mouchiroud D, Gautier C. Statistical analysis of vertebrate sequences reveals that long genes are scarce in GC-rich isochores. // J Mol Evol. 1995. V.40. P.308-317.

89. Eden S., Cedar H., Role of DNA methylation in the regulation of transcription. // Curr. Opin. Genet. 1994. V.4. P.255-259.

90. Fairbrother WG. and Chasin L.A., Human Genomic Sequences That Inhibit Splicing. // Molecular and Cellular Biology. 2000. V.20. P.6816-6825.

91. Faisst S, Meyer S. Compilation of vertebrate-encoded transcription factors. // Nucleic Acids Res. 1992. V.ll. P.3-26.

92. Fang S.M, Burton Z.F. RNA polymerase II-associated protein (RAP) 74 binds transcription factor (TF) IIB and blocks TFIIB-RAP30 binding. // J Biol Chem. 1996. V. 17. P. 11703-11709.

93. Felsenfeld G., J. Boyes J. Chung D. Clark, and V. Studitsky., Chromatin structure and gene expression. // Proc. Natl. Acad. Sci. 1996. V.93. P.9384-9388.

94. Fernandez J, Yaman I, Mishra R, Merrick W.C, Snider M.D, Lamers W.H, Hatzoglou M. Internal ribosome entry site-mediated translation of a mammalian mRNA is regulated by amino acid availability. // J Biol Chem. 2001. V.13. P.12285-12291.

95. Fiaschi Т., Marzocchini R., Raugei G. The 5'-untranslated region of the human muscle acylphosphatase mRNA has an inhibitory effect on protein expression, // FEBS Lett. 1997. V.417. P.130-134.

96. Fickett J.W, Hatzigeorgiou AG. Eukaryotic promoter recognition. // Genome Res. 1997. V.7. P.861-878.

97. Florea L, Hartzell G, Zhang Z, Rubin GM, Miller W. A computer program for aligning a cDNA sequence with a genomic DNA sequence. // Genome Res. 1998. V.8. P.967-974.

98. Fourney G.D., The Viterbi algorithm. // Proc IEEE, 1973, V.61. P.268-278.

99. Futcher В., Latter GI., Monardo P., McLaughlin CS., Garrels J.I. // Mol. Cell. Biol. 1999. V.l9. P.7357-7368.

100. Gallie D.R. Translational control of cellular and viral mRNAs. // Plant Mol Biol. 1996. V.32. P.145-158

101. Gallie D.R, Young Т.Е. The regulation of gene expression in transformed maize aleurone and endosperm protoplasts. Analysis of promoter activity, intron enhancement, and mRNA untranslated regions on expression. // Plant Physiol. 1994. V.106. P.929-939.

102. Gardiner K., Human genome organization. // Curr. Opin. Genet. 1995. V.5. P.315-322.

103. Gegonne A, Bosselut R, Bailly RA, Ghysdael J. Synergistic activation of the HTLV1 LTR Ets-responsive region by transcription factors Etsl and Spl. // EMBO J. 1993. V.12. P.l 169-1178.

104. Gelfand M.S. Prediction of function in DNA sequence analysis. // J Comput Biol. 1995. V.2. P.87-115

105. Gelfand M.S. and Koonin E.V. Avoidance of palindromic words in bacterial and archaeal genomes: a close connection with restriction enzymes. // Nucleic Acids Research. 1997. V.25. P.2430-2439.

106. Gelfand M.S, Mironov A.A, Pevzner P.A. Gene recognition via spliced sequence alignment. // Proc Natl Acad Sci USA. 1996. V.20. P.9061-9066.

107. Gelfand M.S, Roytberg M.A. Prediction of the exon-intron structure by a dynamic programming approach. // Biosystems. 1993. V.30. P.173-182.

108. Georges S.A., Kraus W.L., Luger K., Nyborg J.K., and Laybourn P.J. p300-mediated tax transactivation from recombinant chromatin: histone tail deletion mimics coactivator function. // Mol. Cell. Biol. 2002. V.22. P. 127-137.

109. Ghosh D. Status of the transcription factors database (TFD). // Nucleic Acids Res. 1993. V.21. P.3117-3118.

110. Ghosh, D. Object-oriented transcription factors database (ooTFD). // Nucleic Acids Res. 1999. V.27. P.315-317.

111. Gilbert N and Allan J, Distinctive higher-order chromatin structure at mammalian centromeres // ProcNatl Acad Sci US. 2001. V.98. P.l 1949-11954.

112. Gish W. and States DJ. Identification of protein coding regions by database similarity search. //Nat. Genet. 1993. V.3. P.266-272.

113. Goodrich J.A, Tjian R. TBP-TAF complexes: selectivity factors for eukaryotic transcription. // Curr Opin Cell Biol. 1994. V.6. P.403-409.

114. Goldberg D.E. Genetic Algorithms in Search, Optimization and Machine Learning. // Addison Wesley, Reading, 1989.

115. Gotoh O. Homology-based gene structure prediction: simplified matching algorithm using a translated codon (tron) and improved accuracy by allowing for long gaps. // Bioinformatics, 2000. V.16. P. 190-202.

116. Green M.R. TBP-associated factors (TAFIIs): Multiple, selective transcriptional mediators in common complexes. // Trends Biochem. Sci. 2000. V.25. P.59-63.

117. Gregory P.D. and Horz W. Life with nucleosomes: chromatin remodelling in gene regulation. // Curr. Opin. Cell Biol. 1998. V.10. P.339-345.

118. Guigo R, Fickett J.W. Distinctive sequence features in protein coding genie non-coding, and intergenic human DNA. // J Mol Biol. 1995. V.13. P.51-60.

119. Hanna-Rose W, Hansen U., Active repression mechanisms of eukaryotic transcription repressors. // Trends Genet. 1996. V.12. P.229-234.

120. Hansen J.E, Lund O, Tolstrup N, Gooley A.A, Williams K.L, Brunak S. NetOglyc: prediction of mucin type O-glycosylation sites based on sequence context and surface accessibility. // Glycoconj J. 1998. V. 15. P.l 15-130.

121. Hartzog G.A. and Winston F. Nucleosomes and transcription: recent lessons from genetics. // Curr. Opin. Genet. Dev. 1997. V.7. P. 192-198.

122. Haussler D. Computational genefinding. // Trends Biochem. Sci. 1998. P.12-15.

123. Hebsgaard S.M., Korning P.G., Tolstrup N., Engelbrecht J., Rouze P. and Brunak S. Splice site prediction in Arabidopsis thaliana pre mRNA by combining local and global sequence information. // Nucleic Acids Res. 1996. V.24. P.3439-3452.

124. Hellen C.U, Sarnow P. Internal ribosome entry sites in eukaryotic mRNA molecules. // Genes Dev. 2001. V.l. P.1593-1612.

125. Henderson J, Salzberg S, Fasman K.H. Finding genes in DNA with a Hidden Markov Model. // J Comput Biol. 1997. V.4. P.127-141.

126. Hernandez N., 1993. TBP, a universal eukaryotic transcription factor? // Genes. V.7. P.1291-1308.

127. Hirose Y., Manley J.L., RNA polymerase II and the integration of nuclear events // GENES & DEVELOPMENT. 2000. V.14. P.1415-1429.

128. Hertz G.Z, Hartzell G.W 3rd, Stormo GD. Identification of consensus patterns in unaligned DNA sequences known to be functionally related. // Comput Appl Biosci. 1990. V.6. P.81-92.

129. Hertz G.Z, Stormo G.D. Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. // Bioinformatics. 1999. V.l 5. P.563-577.

130. Hoheisel J.D. Application of hybridization techniques to genome mapping and sequencing. // Trends in Genetics. 1994. V.10. P.79-83.

131. Hoffinann A, Chiang C.M, Oelgeschlager T, Xie X, Burley S.K, Nakatani Y, Roeder R.G. A histone octamer-like structure within TFIID. // Nature. 1996. V.380. P.356-359.

132. Holliday R., Epigenetic inheritance based on DNA methylation. // EXS 1993. V.64. P.452-468.

133. Huang X. An improved sequence assembly program. // Genomics. 1996. V.l. P.21-31.

134. Hutchinson G.B. The prediction of vertebrate promoter regions using differential hexamer frequency analysis. // Сотр. Appl. Biosci. 1996. V.12. P.391-398.

135. Imbalzano A.N, Kwon H, Green M.R, Kingston R.E. Facilitated binding of TATA-binding protein to nucleosomal DNA. // Nature. 1994. V.l 1. P.481-485.

136. Imbalzano A.N, Zaret K.S, Kingston R.E. Transcription factor (TF) IIB and TFIIA can independently increase the affinity of the TATA-binding protein for DNA. // J Biol Chem. 1994. V.l8. P.8280-8286.

137. Imhof A. and WolfFe A.P. Transcription: Gene control by targeted histone acetylation. // Curr. Biol. 1998. V.8. P.422^24.

138. Ince Т.A. and Scotto K.W. A conserved downstream element defines a new class of RNA polymerase II promoters. // J. Biol. Chem. 1995. V.270. P.30249-30252.

139. Inostroza J, Flores O, Reinberg D. Factors involved in specific transcription by mammalian RNA polymerase П. Purification and functional analysis of general transcription factor HE. // J Biol Chem. 1991. V.266. P.9304-9308.

140. Jackson R.J, Kaminski A. Internal initiation of translation in eukaryotes: the picornavirus paradigm and beyond. // RNA. 1995. V.l. P.985-1000.

141. Jackson J.P, Lindroth A.M, Cao X, Jacobsen S.E., Control of CpNpG DNA methylation by the KRYPTONITE histone H3 methyltransferase. // Nature. 2002. V.416. P.556-560.

142. Jenuwein T, Allis C.D: Translating the histone code.// Science 2001. V.293. P.1074-1080.

143. Jiang J, Jacob H.J. EbEST: an automated tool using expressed sequence tags to delineate gene structure. // Genome Res. 1998. V.8. P.268-275.

144. Johannes G, Sarnow P. Cap-independent polysomal association of natural mRNAs encoding c-myc, BiP, and eIF4G conferred by internal ribosome entry sites. // RNA. 1998. V.4. P. 1500-1513.

145. Johannes G, Carter M.S, Eisen M.B, Brown P.O, Sarnow P. Identification of eukaryotic mRNAs that are translated at reduced cap binding complex eIF4F concentrations using a cDNA microarray. // Proc Natl Acad Sci USA. 1999. V.9. P.13118-13123.

146. Jonassen I. Efficient discovery of conserved patterns using a pattern graph. // CABIOS. 1997. V.13. P.509-522.

147. Jonassen I., Collins J.F., Higgins D.G. Finding flexible patterns in unaligned protein sequences. // Protein Science. 1995. V.4. P.1587-1595.

148. Jones P.A., Rideout W.M., Shen J-C., Spruck C.H., Tsai Y.C., Methylation, mutation and cancer. // BioEssays 1992. V.14. P.33-36.

149. Kadam S, Emerson B.M. Mechanisms of chromatin assembly and transcription. // Curr Opin Cell Biol. 2002. V.14. P.262-268.

150. Kadonaga J.T., Eukaryotic transcription: An interlaced network of transcription factors and chromatin-modifying machines. // Cell. 1998. V.92. P.307-313.

151. Karpen G.H., Position-effect variegation and the new biology of heterochromatin. // Curr. Opin. Genet. Dev. 1994. V.4. P.281-291.

152. Kasschau K.D., Xie Z., Allen E., Llave C., Chapman E.J., Krizan K.A., Carrington J.C. PI /НС-Pro, a viral suppressor of RNA silencing, interferes with Arabidopsis development and miRNA function. // Dev Cell. 2003. V.4. P.205-217.

153. Kaufmann J, Smale S.T. Direct recognition of initiator elements by a component of the transcription factor IID complex. // Genes Dev. 1994. V.8. P.821-829.

154. Kephart D.D, Wang B.Q, Burton Z.F, Price D.H. Functional analysis of Drosophila factor 5 (TFIIF), a general transcription factor. // J Biol Chem. 1994. V.269. P.13536-13543.

155. Ketting R.F, Fischer S.E, Bernstein E, Sijen T, Hannon G.J, Plasterk R.H. Dicer functions in RNA interference and in synthesis of small RNA involved in developmental timing in C. elegans. // Genes Dev. 2001. V.15. P.2654-2659.

156. Khrapko K.R., Lysov Yu.P., Khorlyn A.A., Shick V.V., Florentyev VA., Mirzabekov A.D. An oligonucleotide hybridization approach to DNA sequencing. // FEBS Lett. 1989. V.256. P.l 18-122.

157. Kielbasa S.M, Korbel J.O, Beule D, Schuchhardt J, Herzel H. Combining frequency and positional information to predict transcription factor binding sites. // Bioinformatics. 2001. V.17. P.1019-1026.

158. Killeen M.T, Greenblatt J.F. The general transcription factor RAP30 binds to RNA polymerase II and prevents it from binding nonspecifically to DNA. // Mol Cell Biol. 1992. V.12. P.30-37.

159. Kim Y, Geiger J.H, Hahn S, Sigler P.B. Ciystal structure of a yeast TBP/TATA-box complex. //Nature. 1993. V.365. P.512-520.

160. Kim T.K, Kim T.H, Maniatis Т., Efficient recruitment of TFIIB and CBP-RNA polymerase II holoenzyme by an interferon-P enhanceosome in vitro. // Proc Natl Acad Sci USA 1998. V.95. P.12191-12196.

161. Kim T.K, Maniatis T: The mechanism of transcriptional synergy of an in vitro assembled interferon-P enhanceosome. // Mol Cell. 1997. V.l. P.l 19-129.

162. Kim J.L, Nikolov D.B, Burley SK: Co-crystal structure of TBP recognizing the minor groove of a TATA element. //Nature. 1993. V.365. P.520-527.

163. Kingston R.E, Narlikar G.J. ATP-dependent remodeling and acetylation as regulators of chromatin fluidity. // Genes Dev. 1999. V.13. P.2339-2352.

164. Knudsen S. Promoter2.0: for the recognition of Polll promoter sequences. // Bioinformatics. 1999. V.15. P.356-361.

165. Kochetov A.V, Ischenko I.V, Vorobiev D.G, Kel A.E, Babenko V.N, Kisselev L.L, Kolchanov N.A. Eukaryotic mRNAs encoding abundant and scarce proteins are statistically dissimilar in many structural features. // FEBS Lett. 1998. V.3. P.351-355.

166. Kokubo T, Gong D.W, Wootton J.C, Horikoshi M, Roeder RG, Nakatani Y. Molecular cloning of Drosophila TFIID subunits. //Nature. 1994a. V.367. P.484-487.

167. Koleske A.J. and Young R.A., An RNA Polymerase II holoenzyme responsive to activators. //Nature 1994. V.368. P.466-469.

168. Kondrakhin Y.V, Kel A.E, Kolchanov N.A, Romashchenko AG, Milanesi L. Eukaryotic promoter recognition by binding sites for transcription factors. // Comput Appl Biosci. 1995. V.ll. P.477-488.

169. Korf I., Flicek P., Duan D. and Brent M.R. Integrating genomic homology into gene structure prediction. // Bioinformatics. 2001. V.17. P.140-P.148.

170. Kornberg R.D, Lorch Y: Twenty-five years of the nucleosome, fundamental particle of the eukaryote chromosome. // Cell. 1999. V.98. P.285-294.

171. Kozak M. Pushing the limits of the scanning mechanism for initiation of translation. // Gene. 2002. V.299. P. 1-34.

172. Kozak M., Circumstances and mechanisms of inhibition of translation by secondary structure in eukaryotic mRNAs. // Mol. Cell. Biol. 1989. V.9. P.5134-5142.

173. Krogh A. An introduction to hidden Markov models for biological sequences. // Computational Methods in Molecular Biology. / Eds. Salzberg S.L., Searls D.B. and Kasif S. Elsevier, Amsterdam, The Netherlands, 1998. P.46-63.

174. Kulp D, Haussler D, Reese M.G, Eeckman F.H., A generalized hidden Markov model for the recognition of human genes in DNA. // Proc Int Conf Intell Syst Mol Biol. 1996. V.4. P.134-142.

175. Kuo M.H. and Allis C.D. Roles of histone acetyltransferases and deacetylases in gene regulation. // BioEssays. 1998. V.20. P.615-626.

176. Kuo M.H., Zhou J., Jambeck P., Churchill M.E., and Allis C.D. Histone acetyltransferase activity of yeast Gcn5p is required for the activation of target genes in vivo. // Genes & Dev. 1998. V.12. P.627-639.

177. Kutach A.K, Kadonaga J.T. The downstream promoter element DPE appears to be as widely used as the TATA box in Drosophila core promoters. // Mol Cell Biol. 2000. V.20. P.4754-4764.

178. Lachner M, O'Carroll D, Rea S, Mechtler K, Jenuwein Т., Methylation of histone H3 lysine 9 creates a binding site for HP1 proteins. // Nature. 2001. V.410. P.l 16-120.

179. Lagos-Quintana M., Rauhut R., Lendeckel W., Tuschl, T. Identification of novel genes coding for small expressed RNAs. // Science. 2001. V.294. P.853-858.

180. Lagos-Quintana M., Rauhut R., Yalcin A., Meyer J., Lendeckel W., Tuschl T. Identification of tissue-specific microRNAs from mouse. // Curr Biol. 2002. V.12. P.735-739.

181. Lau N.C., Lim L.P., Weinstein E., Bartel D.P. An abundant class of tiny RNAs with probable regulatory roles in Caenorhabditis elegans. // Science. 2001. V.294. P.858-862.

182. Laub M.T, Smith DW. Finding intron/exon splice junctions using INFO, INterruption Finder and Organizer. // J Comput Biol. 1998. V.5. P.307-321.

183. Lawrence C.E, Altschul S.F, Boguski M.S, Liu J.S, Neuwald A.F, Wootton J.C. Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. // Science. 1993. V.262 P.208-214.

184. Lawrence C.E, Reilly A.A. An expectation maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences. // Proteins. 1990. V.7. P.41-51.

185. Lee Y., Jeon K., Lee J.T., Kim S., Kim V.N. MicroRNA maturation: stepwise processing and subcellular localization. // EMBO J. 2002. V.21. P.4663-4670.

186. Lemon B, Tjian R., Orchestrated response: a symphony of transcription factors for gene control. // Genes Dev. 2000. V.14. P.2551-2569.

187. Levitsky V.G., Katokhin A.V., Kolchanov N.A. Inherent modular promoter structure and its application for recognition tools development. // Computational technologies. 2000. V.5. P.41-47.

188. Lewin B. Genes // Oxford University Press, 1997.

189. Li E., Bestor Т.Н., Jaenisch R., Targeted mutation of the DNA methyltransferase gene results in embryonic lethality. // Cell. 1992. V.69. P.915-926.

190. Li Y, Flanagan P.M, Tschochner H, Kornberg R.D. RNA polymerase II initiation factor interactions and transcription start site selection. // Science. 1994. V.263. P.805-807.

191. Littlefield O, Korkhin Y, Sigler P.B: The structural basis for the oriented assembly of a TBP/TFB/promoter complex. // Proc Natl Acad Sci USA 1999. V.96. P.13668-13673.

192. Lu H, Flores O, Weinmann R, Reinberg D. The nonphosphorylated form of RNA polymerase II preferentially associates with the preinitiation complex. // Proc Natl Acad Sci U S A. 1991. V.88. P. 10004-10008.

193. Liu K, Stein A. DNA sequence encodes information for nucleosome array formation. // J Mol Biol. 1997. V.270. P.559-573.

194. Liu R, States D.J. Consensus promoter identification in the human genome utilizing expressed gene markers and gene modeling. // Genome Res. 2002. V.12. P.462-469.

195. Llave C., Xie Z., Kasschau K.D., Carrington J.C. Cleavage of Scarecrow like mRNA targets directed by a class of Arabidopsis miRNA. // Science. 2002. V.297. P.2053-2056.

196. Lu H, Zawel L, Fisher L, Egly J.M, Reinberg D. Human general transcription factor IIH phosphorylates the C-terminal domain of RNA polymerase II. // Nature. 1992. V.358. P.641-645.

197. Lukaszewicz M., Feuermann M., Jerouville В., Stas A. and Boutry M. In vivo evaluation of the context sequence of the translation initiation codon in plants. // Plant Sci. 2000. V.l54. P.89-98.

198. Luger K., Maeder A.W., Richmond R.K., Sargent D.F., Richmond, T.J., Crystal structure of the nucleosome core particle at 2.8 A resolution. // Nature 1997. V.389. P.251-260.

199. Ma D, Olave I, Merino A, Reinberg D. Separation of the transcriptional coactivator and antirepression functions of transcription factor I1A. // Proc Natl Acad Sci USA. 1996. V.93. P.6583-6588.

200. Macleod D., Charlton J., Mullins J., Bird A., Sp 1 sites in the mouse aprt gene promoter are required to pre-vent methylation of the CpG islands. // Genes Dev 1994. V.8. P.2282-2292.

201. Maldonado E, Shiekhattar R, Sheldon M, Cho H, Drapkin R, Rickert P, Lees E, Anderson C.W, Linn S, Reinberg D., A human RNA polymerase II complex associated with SRB andDNA-repair proteins. //Nature. 1996. V.381. P.86-89.

202. Maniatis T, Falvo J.V, Kim T.H, Kim T.K, Lin C.H, Parekh B.S, Wathelet M.G. Structure and function of the interferon-beta enhanceosome. // Cold Spring Harb Symp Quant Biol. 1998. V.63. P.609-620.

203. Marsan L, Sagot M.F. Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification. // J Comput Biol. 2000. V.7. P.345-362.

204. Martinez E, Chiang C.M, Ge H, Roeder R.G. TATA-binding protein-associated factor(s) in TFIED function through the initiator to direct basal transcription from a TATA-less class II promoter. // EMBO J. 1994. V.13. P.3115-3126.

205. Martinez-Salas E, Ramos R, Lafuente E, Lopez de Quinto S. Functional interactions in internal translation initiation directed by viral and cellular IRES elements. // J Gen Virol. 2001. V.82. P.973-984.

206. Mathe C, Sagot M.F, Schiex T and Rouze P, Current methods of gene prediction, their strengths and weaknesses, //Nucleic Acids Research. 2002. V.30. P.4103-4117.

207. Matsui T, Segall J, Weil P.A, Roeder R.G., Multiple factors required for accurate initiation of transcription by purified RNA polymerase II. // J Biol Chem. 1980. V.255. P.l 1992-11996.

208. McCracken S, Greenblatt J. Related RNA polymerase-binding regions in human RAP30/74 and Escherichia coli sigma 70. // Science. 1991. V.253. P.900-902.

209. McGarry T.J, Lindquist S. The preferential translation of Drosophila hsp70 mRNA requires sequences in the untranslated leader. // Cell. 1985. V.42. P.903-911.

210. McPheeters D.S. and Muhlenkamp P, Spatial Organization of Protein-RNA Interactions in the Branch Site-3' Splice Site Region during pre-mRNA Splicing in Yeast, // Molecular and Cellular Biology. 2003. V.23. P.4174-4186

211. Means A.L, Slansky J.E, McMahon S.L, Knuth M.W, Farnham P.J. The HIP1 binding site is required for growth regulation of the dihydrofolate reductase gene promoter.//Mol Cell Biol. 1992. V.12. P.1054-1063.

212. Merika M, Williams A.J, Chen G, Collins T, Thanos D., Recruitment of CBP/p300 by the IFN p enhanceosome is required for synergistic activation of transcription. // Mol Cell. 1998. V.2. P.277-287.

213. Merino A, Madden K.R, Lane W.S, Champoux J.J, Reinberg D. DNA topoisomerase I is involved in both repression and activation of transcription. // Nature. 1993. V.365. P.227-232.

214. Minsky M. and Papert S. Perceptrons: An Introduction to Computational Geometry. // MIT Press, Cambridge, 1969.

215. Mironov A.A., Fickett J.W. and Gelfand M.S. Frequent alternative splicing of human genes. // Genome Res. 1999. V.9. P.1288-1293.

216. Mironov A.A, Roytberg M.A, Pevzner P.A, Gelfand M.S. Performance-guarantee gene predictions via spliced alignment. // Genomics. 1998. V.51. P.332-339.

217. Mitchell P. and Tollervey D. mRNA stability in eukaryotes. //Current Opinion in Genetics and Development 2000. V.10. P.193-198.

218. Mizzen C.A. and Allis C.D. Linking histone acetylation to transcriptional regulation. // Cell. Mol. Life Sci. 1998. V.54. P.6-20.

219. Mott R. EST GENOME: a program to align spliced DNA sequences to unspliced genomic DNA. // Comput Appl Biosci. 1997. V.13. P.477-478.

220. Mourelatos Z., Dostie J., Paushkin S., Sharma A., Chatroux В., Abel L., Rappsilber J., Mann M., Dreyfuss G. miRNPs: a novel class of ribonucleoproteins containing numerous microRNAs. // Genes Dev. 2002. V.16. P.720-728.

221. Muller C.W. Transcription factors: global and detailed views. // Curr Opin Struct Biol. 2001. V.ll.P.26-32.

222. Munshi N, Yie J, Merika M, Senger K, Lomvardas S, Agalioti T, Thanos D: The IFN-P enhancer: a paradigm for understanding activation and repression of inducible gene expression. // Cold Spring Harb Symp Quant Biol 1999, V.64. P. 149-159.

223. Murakami К and Takagi T: Gene recognition by combination of several gene-finding programs. // Bioinformatics. 1998. V.14. P.665-675.

224. Nagy P.L, Griesenbeck J, Kornberg RD, Cleary ML., A trithorax-group complex purified from Saccharomyces cerevisiae is required for methylation of histone H3. // Proc Natl Acad Sci USA 2002. V.99. P.90-94.

225. Nakamura Y., Gojobori T. and Ikemura T. Codon usage tabulated from the international DNA sequence databases: status for the year 2000. // Nucl. Acids Res. 2000. V.28. P.292.

226. Nakatani Y, Bagby S, Ikura M. The histone folds in transcription factor TFIID. // J Biol Chem. 1996. V.271. P.6575-6578.

227. Neuwald A.F, Liu J.S, Lawrence C.E. Gibbs motif sampling: detection of bacterial outer membrane protein repeats. // Protein Sci. 1995. V.8. P.1618-1632.

228. Nikolov D.B., Burley S.K. RNA polymerase II transcription initiation: A structural view. // Proc. Natl. Acad. Sci. USA, 1997, 94, 15-22.

229. Nikolov DB, Burley SK., 2.1 A resolution refined structure of a TATA box-binding protein (TBP). //Nat Struct Biol. 1994. V.l. P.621-637.

230. Nikolov D.B, Chen H, Halay E.D, Hoffinan A, Roeder R.G, Burley S.K., Crystal structure of a human TATA box-binding protein/TATA element complex. // Proc Natl Acad Sci USA. 1996. V.93. P.4862-4867.

231. Noma K, Allis C.D, Grewal S.I., Transitions in distinct histone H3 methylation patterns at the heterochromatin domain boundaries. // Science. 2001. V.293. P.l 1501155.

232. Novichkov P.S, Gelfand M.S, Mironov A.A. Gene recognition in eukaryotic DNA by comparison of genomic sequences. // Bioinformatics. 2001. V.l7. P. 1011-1018.

233. Novina C.D. and Roy A.L. Core promoters and transcription factor binding sites. //J. Mol. Biol. 1996. V.249. P.923-932.

234. O'Brien T, Hardin S, Greenleaf A, Lis J.T. Phosphorylation of RNA polymerase II C-terminal domain and transcriptional elongation. // Nature. 1994. V.370. P.75-77.

235. Oleynikov Y. and Singer R.H. RNA localization: different zipcodes, same postman? // Trends Cell. Biol. 1998. V.8. P.381-383.

236. Olsen P.H., Ambros V. The lin-4 regulatory RNA controls developmental timing in Caenorhabditis elegans by blocking LIN-14 protein synthesis after the initiation of translation. // Dev Biol 1999. V.216. P.671-680.

237. Orphanides G., Lagrange Т., and Reinberg D., The general transcription factors of RNA polymerase II. // Genes & Dev. 1996. V.10. P.2657-2683.

238. Pachter L, Batzoglou S, Spitkovsky V.I, Banks E, Lander E.S, Kleitman D.J, Berger B. A dictionary-based approach for gene annotation. // J Comput Biol. 1999. V.6. P.419-430.

239. Paranjape S.M., Kamakaka R.T., Kadonaga J.T., Role of chromatin structure in the regulation of transcription by RNA polymerase II. // Annu. Rev. Biochem 1994. V.63. P.265-297.

240. Parekh B.S. and Maniatis T. Virus infection leads to localized hyperacetylation of histones H3 and H4 at the IFN-b promoter. // Mol. Cell. 1999. V.3. P.125-129.

241. Parvin J.D. and Young R.A., Regulatory targets in the RNA polymerase II holoenzyme. // Curr. Opin. Genet. Dev. 1998. V.8. P.565-570.

242. Paule M.R, White RJ. Survey and summary: transcription by RNA polymerases I and III. // Nucleic Acids Res. 2000. V.28. P.1283-1298.

243. Pavesi G, Mauri G, Pesole G. An algorithm for finding signals of unknown length in DNA sequences. // Bioinformatics. 2001. V.17. P.207-214.

244. Pavy N, Rombauts S, Dehais P, Mathe C, Ramana D V. V., Leroy P and Rouze P, Evaluation of gene prediction software using a genomic data set: application to Arabidopsis thalianasequences, // Bioinformatics. 1999. V.15. P.887-899.

245. Pedersen A.G, Baldi P, Chauvin Y, Brunak S., The biology of eukaryotic promoter prediction—a review. // Comput Chem. 1999. V.23. P.191-207

246. Peled-Zehavi H, Berglund J.A, Rosbash M and Frankel A.D., Recognition of RNA Branch Point Sequences by the KH Domain of Splicing Factor 1 (Mammalian

247. Branch Point Binding Protein) in a Splicing Factor Complex, // Molecular and Cellular Biology. 2001. V.21. P.5232-5241.

248. Pesole G., Liuni S. and Dsouza M. PatSearch: a pattern matcher software that finds functional elements in nucleotide and protein sequences and assesses their statistical significance. // Bioinformatics. 2000. V.l6. P.439-450.

249. Pesole G., Prunella N., Liuni S. et al., WORDUP: an efficient algorithm for discovering statistically significant patterns in DNA sequences. // Nucleic Acids Res. 1992. V.20. P.2871-2875.

250. Pestova T.V, Kolupaeva V.G, Lomakin I.B, Pilipenko E.V, Shatsky I.N, Agol V.I, Hellen C.U. Molecular mechanisms of translation initiation in eukaryotes. // Proc Natl Acad Sci USA. 2001. V.98. P.7029-7036.

251. Peterson C.L. Multiple switches to turn on chromatin? // Curr. Opin. Genet. Dev. 1996. V.6. P.171-175.

252. Pevzner P.A. and Sze S.H. Combinatorial approaches to finding subtle signals in DNA sequences. // Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology (ISMB), 2000. P.269-278.

253. Pierce B.A., Genetics: A Conceptual Approach. // Worth Publishing, 2003.

254. Pitto L, Gallie D.R, Walbot V, Role of the leader sequence during thermal repression of translation in maize, tobacco, and carrot protoplasts. // Plant Physiol. 1992. V.100. P.1827-1833.

255. Pollard K.J. and Peterson C.L. Chromatin remodeling: a marriage between two families? // BioEssays. 1998. V.20. P.771-780.

256. Preiss T. and Hentze M.W. From factors to mechanisms: translation and translational control in eukarytotes. // Current Opinion in Genetics and Development. 1999. V.9. P.515-521.

257. Prestridge D.S. Predicting Pol II promoter sequences using transcription factor binding sites. // J Mol Biol. 1995. V.249. P.923-932

258. Purnell B.A, Emanuel P.A, Gilmour D.S. TFIID sequence recognition of the initiator and sequences farther downstream in Drosophila class II genes. // Genes Dev. 1994. V.8. P.830-842.

259. Pyronnet S, Pradayrol L, Sonenberg N. A cell cycle-dependent internal ribosome entry site. // Mol Cell. 2000. V.5. P.607-616.

260. Quandt K, Freeh K, Karas H, Wingender E, Werner T. Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data. //Nucleic Acids Res. 1995 V.23. P.4878-4884.

261. Quinn J., A. Fyrberg R.W. Ganster M.C. Schmidt and Peterson CL. DNA-binding properties of the yeast SWI/SNF complex. //Nature. 1996. V.379. P.844-847.

262. Ramakrishnan V., Histone HI and chromatin higher-order structure. // Crit. Rev. Eukaryot. Gene Expr. 1997. V.7. P.215-230.

263. Rea S., Eisenhabe, F., O'Carroll D., Strahl B.D., Sun Z.W., Schmid M., Opravil S., Mechtler K., Ponting C.P., Allis C.D. Regulation of chromatin structure by sitespecific histone H3 methyltransferases. // Nature. 2000. V.406. P.593-599.

264. Reese M.G.and Eeckman F.H. Novel neural network algorithms for improved eukaryotic promoter site recognition. // The Seventh International Genome Sequencing and Analysis Conference. Hyatt Regency, Hilton Head Island, SC. 1995.

265. Reines D., Conaway R.C., and Conaway J.W. Mechanism and regulation of transcriptional elongation by RNA polymerase II. // Curr. Opin. Cell. Biol. 1999. V.ll. P.342-346.

266. Reinhart B.J., Weinstein E.G., Rhoades M.W., Bartel В., Bartel D.P. MicroRNAs in plants. // Genes Dev. 2002. V.16. P.1616-1626.

267. Robison K., McGuire A.M., Church G.M. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K12 genome. // Journal of Molecular Biology. 1998. V.284. P.241-254.

268. Roeder R.G., Eucaryotic nuclear RNA polymerases. // RNA polymerase. Eds. R.Rosick and M.Chamberlin,, Cold Spring Harbor, NY. 1976. P.285-329.

269. Rogic S, Ouellette B.F, Mackworth A.K. Improving gene recognition accuracy by combining predictions from two gene-finding programs. // Bioinformatics. 2002. V.l8. P. 1034-1045.

270. Rogozin I.B., Milanesi L. and Kolchanov N.A. Gene structure prediction using information on homologous protein sequence. // Comput. Appl. Biosci. 1996. V.12. P.161-170.

271. Roy A.L, Malik S, Meisterernst M, Roeder R.G. An alternative pathway for transcription initiation involving TFII-I. //Nature. 1993. V.365. P.355-359.

272. Saiki R.K., Bugawan T.L., Horn G.T., Mullis K.B. and Erlich H.A. Analysis of enzymatically amplified beta-globin and HLA-DQalpha DNA with allele-specific oligonucleotide probes. //Nature. 1986. V.324. P.153-166.

273. Salzberg S.L. A method for identifying splice sites and translational start sites in eukaryotic mRNA. // Comput Appl Biosci. 1997. V.13. P.365-376.

274. Salzberg S., Delcher A., Fasman K. and Henderson J. A decision tree system for finding genes in DNA. // J. Comput. Biol., 1998. V.5. P.667-680.

275. SchaefFer L, Moncollin V, Roy R, Staub A, Mezzina M, Sarasin A, Weeda G, Hoeijmakers J.H, Egly J.M. The ERCC2/DNA repair protein is associated with the class IIBTF2/TFIIH transcription factor. // EMBO J. 1994. V.13. P.2388-2392.

276. SchaefFer L, Roy R, Humbert S, Moncollin V, Vermeulen W, Hoeijmakers J.H, Chambon P, Egly J.M. DNA repair helicase: a component of BTF2 (TFIIH) basic transcription factor. // Science. 1993. V.260. P.58-63.

277. Schneider T.D, Stephens RM. Sequence logos: a new way to display consensus sequences. //Nucleic Acids Res. 1990. V.l8. P.6097-6100.

278. Schubeler D, Mielke C, Maass K, Bode J. ScafFold/matrix-attached regions act upon transcription in a context-dependent manner. // Biochemistry. 1996. V.35. P.l 116011169.

279. Schuler G. Boguski M.S., Stewart E.A. A gene map of the human genome. // Science. 1996. V.274. P.540-546.

280. Serizawa H, Conaway R.C, Conaway J.W. A carboxyl-terminal-domain kinase associated with RNA polymerase II transcription factor delta from rat liver. // Proc Natl Acad Sci USA. 1992. V.89. P.7476-7480.

281. Sharp P.A. TATA-binding protein is a classless factor. // Cell. 1992. V.68. P.819-821.

282. Sharp P.M, Li W.H., The codon Adaptation Index—a measure of directional synonymous codon usage bias, and its potential applications. // Nucleic Acids Res. 1987. V.15. P.1281-1295.

283. Sheldon M, Reinberg D. Transcriptional activation. Tuning-up transcription. // Curr Biol. 1995. V.5. P.43-46.

284. Shindyalov I.N., Kolchanov N.A. A computer system for the analysis of molecular evolution in isofunctional gene families. // International Journal of Genome Research. 1993. V.l. P.129-148.

285. Scherf M, Klingenhoff A, Werner T. Highly specific localization of promoter regions in large genomic sequences by Promoterlnspector: a novel context analysis approach. // J Mol Biol. 2000. V.297. P.599-606.

286. Schmid C.D, Praz V, Delorenzi M, Perier R, Bucher P. The Eukaryotic Promoter Database EPD: the impact of in silico primer extension. // Nucleic Acids Res. 2004. Database issue. P.82-85.

287. Schneider T.D, Stormo G.D, Gold L and Ehrenfeucht. Information content of binding sites on nucleotide sequences. // J.Mol.Biol. 1986. V.188. P.415-431.

288. Simpson R.T. Nucleosome positioning: occurrence, mechanisms, and functional consequences. // Prog Nucleic Acid Res Mol Biol. 1991. V.40. P.143-184.

289. Sinha S. and Tompa M.A statistical method for finding transcription factor binding sites. // Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology (ISMB). 2000. P.344-344.

290. Sippel A.E., Schafer G., Faust N., Hecht A., Bonifer C., Chromatin domains constitute regulatory units for the control of eukaryotic genes. // Cold Spring Harbor Symp. Quant. Biol. 1993. V.58. P.37-44.

291. Smale S.T., Core promoter architecture for eukaryotic protein-coding genes. // Transcription: Mechanisms and regulation. / Eds. Conaway R.C., Conaway J.W., Raven Press, New York, 1994a. P.63-81.

292. Smale S.T., DNA sequence requirements for transcriptional initiator activity in mammalian cells. // Mol. Cell. Biol. 1994b. V.14. P.l 16-127.

293. Solovyev V, Salamov A. The Gene-Finder computer tools for analysis of human and model organisms genome sequences. // Proc Int Conf Intell Syst Mol Biol. 1997. V.5. P.294-302.

294. Solovyev V.V, Salamov A.A, Lawrence C.B. Predicting internal exons by oligonucleotide composition and discriminant analysis of spliceable open reading frames. //Nucleic Acids Res. 1994. V.22. P.5156-5163.

295. Sterner D.A, Carlo T, Berget S.M. Architectural limits on split genes. // Proc Natl Acad Sci USA. 1996. V.93. P.15081-15085.

296. St Johnston D. The intracellular localization of messenger RNAs // Cell. 1995. V.81. P.161-170.

297. Stoeckert C.J Jr, Salas F, Brunk B, Overton GC. EpoDB: a prototype database for the analysis of genes expressed during vertebrate erythropoiesis. // Nucleic Acids Res.1999. V.27. P.200-203.

298. Stormo G.D. DNA binding sites: representation and discovery. // Bioinformatics.2000. V.16. P. 16-23.

299. Stormo G.D, Haussler D. Optimally parsing a sequence into different classes based on multiple types of evidence. // Proc Int Conf Intell Syst Mol Biol. 1994. V.2. P.369-375.

300. Strezoska Z., Paunesku Т., Radosavljevic D., Labat I., Drmanac R., Crkvenjakov R. DNA sequencing by hybridization: 100 bases read by a non-gel-based method. // Proc. Natl. Acad. Sci. USA. 1991. V.88. P.10089-10093.

301. Struhl K., Duality of TBP, the universal transcription factor. // Science. 1994. V.263. P.l 103-1104.

302. Struhl K., and Moqtaderi Z. The TAFs in the HAT. // Cell. 1998. V.94. P. 1-4.

303. Stuckle E.E., Emmrich, C., Grob, U. and Nielsen P.J. Statistical analysis of nucleotide sequences. // Nucleic Acids Research. 1990. V.18. P.6641-6647.

304. Stunkel W, Huang Z, Tan S.H, O'Connor M.J, Bernard H.U. Nuclear Matrix Attachment Regions of Human Papillomavirus Type 16 Repress or Activate the E6 Promoter, Depending on the Physical State of the Viral DNA. // J Virol. 2000. V.l A. P.2489-2501.

305. Suggs S.V., Wallace R.B., Hirose Т., Kawashima E.H. and Itakura K. Use of synthetic oligonucleotides as hybridization probes: isolation of cloned cDNA sequences for human beta2-microglobulin. // Proc. Natl. Acad. Sci. USA 1981. V.78. P.6613-6617.

306. Sun Z.W, Hampsey M. Identification of the gene (SSU71/TFG1) encoding the largest subunit of transcription factor TFIIF as a suppressor of a TFIIB mutation in Saccharomyces cerevisiae. // Proc Natl Acad Sci USA. 1995. V.92. P.3127-3131.

307. Sutton G.O., White O., Adams M.D. and Kerlavage A.R. TIGR Assembler: A new tool for assemling large shotgun sequencing projects. // Genome Sci. Technol. 1995. V.l. P.9-18.

308. Suzuki Y., Ishihara D., Sasaki M., Nakagawa H., Hata H., Tsunoda Т., Watanabe M., Komatsu Т., Ota Т., Isogai T. Statistical analysis of the 5' untranslated region of human mRNA using "Oligo-Capped" cDNA libraries. // Genomics 2000. V.64. P.286-297.

309. Tan S, Garrett K.P, Conaway R.C, Conaway J.W. Cryptic DNA-binding domain in the С terminus of RNA polymerase II general transcription factor RAP30. // Proc Natl Acad Sci USA. 1994. V.91. P.9808-9812.

310. Tang H, Sun X, Reinberg D, Ebright RH. Protein-protein interactions in eukaryotic transcription initiation: structure of the preinitiation complex. // Proc Natl Acad Sci USA. 1996. V.93. P.l 119-1124.

311. Tang G., Reinhart B.J., Bartel D.P., Zamore P.D. A biochemical framework for RNA silencing in plants. // Genes Dev. 2003. V.17. P.49-63.

312. Tanguay R.L, Gallie D.R., Translational efficiency is regulated by the length of the 3' untranslated region. // Mol Cell Biol. 1996. V.16. P.146-156.

313. Thanaraj T.A. and Clark F, Human GC-AG alternative intron isoforms with weak donor sites show enhanced consensus at acceptor exon positions. // Nucleic Acids Research. 2001. V.29. P.2581-2593.

314. Tirade F., Busso D. and Egly J.M., Reconstitution of the transcription factor TFIIH: Assignment of functions for the three enzymatic subunits, XPB, XPD, and cdk7. // Mol. Cell. 1999. V.3. P.87-95.

315. Tolstrup N., Rouze P. and Brunak S. A branch point consensus from Arabidopsis found by non-circular analysis allows for better prediction of acceptor sites. // Nucleic Acids Res. 1997. V.25. P.315^-3163.

316. Tompa M. An exact method for finding short motifs in sequences, with application to the ribosome binding site problem. // Proceedings of the 7th International Conference on Intelligent Systems for Molecular Biology (ISMB). 1999. P.262-271.

317. Tsai J.Y, Namin-Gonzalez M.L, Silver L.M. False association of human ESTs. // Nat Genet. 1994. V.8. P.321-322.

318. Tsai F.T, Sigler P.B: Structural basis of preinitiation complex assembly on human pol II promoters. // EMBO J. 2000. V.l9. P.25-36.

319. Tsukiyama T. and Wu C. Chromatin remodeling and transcription. // Curr. Opin. Genet. Dev. 1997. V.7. P. 182-191.

320. Tsukiyama T. and Wu C. Purification and properties of an ATPdependent nucleosome remodelling factor. // Cell. 1995. V.83. P.1011-1020.

321. Tsukiyama Т., Daniel C., Tamkun J. and Wu C. ISWI, a member of the SWI2/SNF2 ATPase family, encodes the 140 kDa subunit of the nucleosome remodeling factor. // Cell. 1995. V.83. P.1021-1026.

322. Uberbacher E.C, Mural R.J. Locating protein-coding regions in human DNA sequences by a multiple sensor-neural network approach. // Proc Natl Acad Sci USA. 1991. V.88. P.l 1261-11265.

323. Usheva A, Shenk T. YY1 transcriptional initiator: protein interactions and association with a DNA site containing unpaired strands. // Proc Natl Acad Sci USA. 1996. V.93. P.13571-13576.

324. Usuka J, Brendel V. Gene structure prediction by spliced alignment of genomic DNA with protein sequences: increased accuracy by differential splice site scoring. // J Mol Biol. 2000. V.297. P.1075-85.

325. Varga-Weisz P.D. and Becker P.B. Chromatin-remodeling factors: Machines that regulate? // Curr. Opin. Cell Biol. 1998. V.10. P.346-353.

326. Venijzer C.P, Yokomori K, Chen J.L, Tjian R. Drosophila TAFII150: similarity to yeast gene TSM-1 and specific binding to core promoter DNA. // Science. 1994. V.264. P.933-941.

327. Vignali M, Hassan A.H, Neely K.E, Workman J.L: ATP-dependent chromatin-remodeling complexes. //Mol Cell Biol. 2000. V.20. P.1899-1910.

328. Viterbi, A.J., Error bounds for convolutional codes and an asymptotically optimal decoding algorithm. // IEEE Trans.InformatTheory, 1967, IT-13, P.260-269.

329. Wang Z.X., Assessing the accuracy of protein secondary structure. // Nat Struct Biol. 1994. V.l. P.145-146.

330. Wang S. and Miller W.A. A sequence located 4.5 to 5 kilobases from the 5' end of the barley yellow dwarf virus (PAV) genome strongly stimulates translation of uncapped mRNA // J. Biol. Chem. 1995. V.270. P. 13446-13452.

331. Weil P.A, Luse D.S, Segall J, Roeder R.G., Selective and accurate initiation of transcription at the Ad2 major late promotor in a soluble system dependent on purified RNA polymerase II and DNA. // Cell. 1979. V.l8. P.469-484.

332. Weiner P. Linear pattern matching algorithm // Proc. Of the 14th IEEE Symp. On Switching and Automata Theory, Oct. 1973. P. 1-11.

333. Weis L, Reinberg D., Transcription by RNA polymerase II: initiator-directed formation of transcription-competent complexes. // FASEB J. 1992. V.6. P.3300-3309.

334. White J.R., RNA polymerase III Transcription. // Springer Verlag. New York. NY. 1998.

335. Will C.L. Schneider C, MacMillan A.M., Katopodis N.F., Neubauer G, Wilm M., Luhrmann R and Query C.C., A novel U2 and U11/U12 snRNP protein that associates with the pre-mRNA branch site. // The EMBO Journal. 2001. V.20. P.4536-4546.

336. Williamson AR. The MERK gene index project. // Drug Discovery Today. 1999. V.4. P.l 15-122.

337. Wilson C.J., Chao D.M., Imbalzano A. N. and Kingston R. E. RNA polymerase II holoenzyme contains SWI/SNF regulators involved in chromatin remodelling. // Cell. 1996. V.84. P.235-244.

338. Wingender E, Dietze P, Karas H, Knuppel R. TRANSFAC: a database on transcription factors and their DNA binding sites. // Nucleic Acids Res. 1996. V.24. P.238-241.

339. Wightman В., Ha I., Ruvkun G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans.// Cell. 1993. V.75. P.855-862.

340. Wolfertstetter F, Freeh K, Herrmann G, Werner T. Identification of functional elements in unaligned nucleic acid sequences by a novel tuple search algorithm. // Comput Appl Biosci. 1996. V.12. P.71-80.

341. Wolfsberg T.G, Landsman D. A comparison of expressed sequence tags (ESTs) to human genomic sequences. //Nucleic Acids Res. 1997. V.25. P.1626-1632.

342. Wolffe A.P., Khochbin S., Dimitrov S., What do linker histones do in chromatin? //BioEssays. 1997. V.l 9. P.249-255.

343. Workman J.L. and Kingston R.E. Alteration of nucleosome structure as amechanism of transcriptional regulation. // Annu. Rev. Biochem. 1998. V.67. P.545-579.

344. Xie X, Kokubo T, Cohen S.L, Mirza U.A, Hoffmann A, Chait B.T, Roeder R.G, Nakatani Y, Burley S.K. Structural similarity between TAFs and the heterotetrameric core of the histone octamer. // Nature. 1996. V.380. P.316-322.

345. Xu Y, Mural R.J, Uberbacher E.C. Constructing gene models from accurately predicted exons: an application of dynamic programming. // Comput Appl Biosci. 1994. V.10. P.613-623.

346. Xu Y, Uberbacher E.C. Automated gene identification in large-scale genomic sequences. // J Comput Biol. 1997. V.4. P.325-338.

347. Yie J., Senger K., and Thanos D., Mechanism by which the IFN-beta enhanceosome activates transcription. // Proc Natl Acad Sci USA. 1999. V.96. P. 1310813113.

348. Zawel L, Kumar K.P, Reinberg D., Recycling of the general transcription factors during RNA polymerase II transcription. // Genes Dev. 1995. V.9. P. 1479-1490.

349. Zawel L, Reinberg D., Initiation of transcription by RNA polymerase II: a multi-step process. // Prog Nucleic Acid Res Mol Biol. 1993. V.44. P.67-108.

350. Zhang M.Q. Identification of protein coding regions in the human genome by quadratic discriminant analysis. // Proc Natl Acad Sci USA. 1997. V.94. P.565-568.

351. Zhang M.Q. Identification of human gene core promoters in silico. // Genome Res. 1998. V.8. P.319-326.

352. Zhang MQ. Promoter analysis of co-regulated genes in the yeast genome. // Сотр. & Chem. 1999. V.23. P.233-250.

353. Zhang M.Q. Computational prediction of eukaryotic protein-coding genes. // Nat Rev Genet. 2002. V.3. P.698-709.

354. Zhang M.Q, Marr T.G., A weight array method for splicing signal analysis. // Comput Appl Biosci. 1993. V.9. P.499-509.

355. Zhang Y, Reinberg D., Transcription regulation by histone methylation: interplay between different covalent modifications of the core histone tails. // Genes Dev. 2001. V.15. P.2343-2360.

356. Zharkikh A.A., Rzhetsky A.Y. Quick assessment of similarity of two sequences by comparison of their L-tuple frequencies. // Biosystems. 1993. V.30. P.93-112.

357. Zhou Q, Boyer T.G, Berk A.J., Factors (TAFs) required for activated transcription interact with TATA box-binding protein conserved core domain. // Genes Dev. 1993. V.7. P. 180-187.

358. Zhu J and Zhang M.Q. Cluster, function and promoter: analysis of yeast expression array. // Proceedings of Pacific Symposium on Biocomputing / Ed. Altman R.B. 2000. V.5. P.476-487.