Бесплатный автореферат и диссертация по биологии на тему
Идентификация и анализ тандемных повторов и близких структурированных сигналов в ДНК
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Идентификация и анализ тандемных повторов и близких структурированных сигналов в ДНК"

На правах рукописи

0030672 Ю

БОЕВА Валентина Анатольевна

ИДЕНТИФИКАЦИЯ И АНАЛИЗ ТАНДЕМНЫХ ПОВТОРОВ И БЛИЗКИХ СТРУКТУРИРОВАННЫХ СИГНАЛОВ В ДНК

03,00.02 - БИОФИЗИКА

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Москва - 2006

003067210

Работа выполнена на факультете биоинженерии и биоинформатики Московского Государственного Университета им. М.В. Ломоносова.

Научные руководители: Кандидат физико-математических наук

Макеев Всеволод Юрьевич.

Доктор биологических наук Миронов Андрей Александрович.

Официальные оппоненты: Доктор биологических наук

Озолинь Ольга Николаевна.

Кандидат физико-математических наук Ройтберг Михаил Абрамович.

Ведущая организация: Институт Молекулярной Биологии РАН, Москва

Защита состоится «2_1_» ^«¿(¿уа-е/ 2007 г. в часов на заседании

Диссертационного Совета Д 002.093.01 в Институте Теоретической и Экспериментальной Биофизики РАН по адресу:

142290, г. Пущино Московской обл., ул. Институтская, 3.

С диссертацией можно ознакомиться в библиотеке Института Теоретической и Экспериментальной Биофизики РАН.

Автореферат разослан «'¿¿»^£-''¿-¿-^/2006 г.

Ученый секретарь Диссертационного Совета, л

т

кандидат физико-математических наук, Н.Ф. Ланина

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Основным механизмом геномной эволюции долгое время считались точечные мутации нуклеотидов в последовательностях ДНК. Однако в последнее время было показано, что одним из важных дополнительных механизмов изменчивости являются геномные перестройки, в частности, тандемные дупликации и мультипликации.

Механизмы дупликаций коротких слов, приводящие к возникновению и размножению микросателлитов, отличны от механизмов дупликации более длинных участков генома, приводящих к возникновению минисателлитов. Тем не менее, в обоих случаях могут возникнуть новые промоторные области, сайты альтернативного сплайсинга и т.д.

После возникновения сателлитной последовательности в результате действия одного из вышеописанных механизмов возможно изменение последовательности в результате точечных мутаций, что может привести к почти полному «исчезновению» сателлита. По-видимому, именно такие, деградировавшие сателлиты рекрутируются для различных биологических функций, включая регуляцию транскрипции и репликации, структурные модификации белков и т.д. Таким образом, требуется метод поиска сильно вырожденных, тандемно повторяющихся мотивов в последовательностях ДНК. Ввиду значительной вырожденности подобных повторов возможна неверная идентификация случайного участка генома как вырожденной сателлитной последовательности. Поэтому необходима оценка значимости найденных структур как неслучайных.

Вопрос разработки алгоритма для поиска тандемных повторов в ДНК стоит последние пятнадцать лет. В настоящий момент существует более десяти различных программ для поиска периодических структур в последовательностях ДНК. Для полногеномного сканирования с целью поиска микросателлитных последовательностей зачастую используется инструменты EQUICKTANDEM, ETANDEM и Sputnik. Программа RepeatMasker широко используется для 'маскирования' последовательностей ДНК низкой сложности или обладающих периодической структурой с целью понизить 'шум', к которому они приводят при поиске гомологичных участков. В 1999 году был представлен алгоритм, включающий эвристическую и статистическую составляющую, воплощенный в программе Tandem Repeats Finder (TRF). В другом недавно

опубликованном алгоритме, MREPS, используется комбинированный комбинаторно-эвристический подход. Также существуют программы, нацеленные на поиск точных тандемных повторов с короткой длиной периода, такие как tandyman, или с заранее заданными мотивами, такие как TROLL.

Большинство приведенных алгоритмов не позволяют оценить статистическую значимость найденных структур, с помощью которой можно было бы определить наиболее подходящую длину периода среди самоперекрывающихся повторов с различной длиной периода. Кроме того, каждый алгоритм нацелен на определенную задачу и класс определяемых повторов; степень их вырожденности, длина периода и другие параметры различны от программы к программе. Поэтому нельзя сказать, что существует единственно возможный исчерпывающий алгоритм поиска.

В то же время, многие из перечисленных выше алгоритмов не могут анализировать тандемные повторы «испорченные» нуклеотидными заменами, а качество работы других алгоритмов сильно падает, при попытке анализировать повторы с большим количеством таких замен. Как уже отмечалось, подобные вырожденные повторы часто рекрутируются для различных функций, поэтому важно иметь инструмент для их исследования. Диссертация посвящена разработке такого инструмента и использованию созданной программы для анализа различных геномов животных, включая человека.

Объект, предмет и метод исследования. Объектом исследования являются периодические структуры в ДНК: микросателлиты (точные и средне вырожденные повторы с длиной повторяющейся единицы до 6 п.н.), минисателлиты (точные и средне вырожденные повторы с длиной повторяющейся единицы от 6 п.н. до 100 п.н.), сателлитные последовательности (точные и средне вырожденные тандемные повторы с длиной повторяющейся единицы от 100 п.н. до 200 п.н.) и сильно вырожденные, «исчезающие» тандемные повторы с длиной периода до 200 п.н. Предметом исследования является разработка метода идентификации тандемных повторов в ДНК и анализа свойства распределения тандемных повторов в различных функциональных участках ДНК, а также в хромосомах различных эукариотических геномов. Основные применяемые в диссертационном исследовании методы - автокорреляционный анализ для поиска кандидатных тандемных повторов, метод производящих функций и элементарных языков, а также средства комбинаторного анализа для получения формул

для оценки статистической значимости найденных повторов. Исходной теоретической основой исследования являются труды отечественных и зарубежных ученых как в области теории алгоритмов, так и в области построения статистических моделей.

Цель н задачи исследования. Основной целью данного исследования является построение алгоритма идентификации тандемных повторов в ДНК с последующим анализом свойств распределения тандемных повторов в ДНК различных эукариотических геномов. Основным результатом работы должно стать получение алгоритма поиска повторов, удовлетворяющих заданным условиям по степени вырожденности и длине периода, как на уровне полногеномного анализа, так и в коротких ДНК-последовательностях, его использование для картирования геномов на предмет наличия периодических структур, выводы о свойствах распределений повторов в геномах.

Достижение поставленных целей предполагает решение следующих задач.

• Построение моделей для представления периодических последовательностей в ДНК.

• Получение формул для оценки статистической значимости повторов для построенных моделей через подсчет вероятностей наблюдения данных структур в случайной последовательности.

• Разработка алгоритма идентификации участков ДНК, обладающих периодической структурой на основе методов автокорреляционного анализа.

• Интеграция процедуры оценки статистической значимости с процедурой поиска периодичностей для построения нового современного алгоритма определения сильно и слабо вырожденных тандемных повторов.

• Имплементация алгоритма в виде отдельного приложения, а также создание Интернет-сайта для возможности сканирования последовательностей ДНК на наличие периодических участков через Интернет.

• Создание базы данных тандемных повторов в различных функциональных участках ДНК различных организмов.

• Анализ распределений повторов и выделение характерных особенностей повторов в каждой группе.

Научная новизна диссертационного исследования.

• Благодаря построению нового алгоритма идентификации периодических структур в ДНК стало возможным изучение нового объекта - сильно вырожденных тандемных повторов.

• Стало возможным получение более полных карт повторов для геномов эукариот. С помощью нового метода были определены обладающие периодической структурой участки, покрывающие до 30% генома, значительная часть которых не была определена как таковая до настоящего момента в существующих аннотациях геномов.

• С помощью нового алгоритма поиска повторов стало возможным провести сравнительный анализ распределения повторов с большой длиной периода (до 200 п.н.) в маштабе полных геномов эукариот.

Практическая значимость. Получение формул для оценки статистической значимости повторов дает возможность оценить значимость повторов, найденных в ДНК при помощи других алгоритмов, тем самым давая инструмент для сравнения качества работы различных алгоритмов.

Были созданы базы данных для различных эукариотических геномов, включая геном человека, содержащие информацию о расположении, длине и количестве копий повторов с указанием их статистической значимости. Эти данные могут быть использованы в научных исследованиях как для маскирования повторов для их дальнейшей элиминации, так и для поиска в них различных сигналов: сайтов связывания белков, горячих точек рекомбинации и др.

Также, анализ распределения повторов в геномах близких и далеких организмов позволит лучше понять процессы эволюции геномов, предположить новые возможные механизмы. Более того, сравнение тандемных повторов в различных гаплотипах даст информацию о полиморфизмах и мутационных явлениях. Это может помочь понять причины возникновения некоторых наследственных заболеваний, а также заболеваний, вызванных соматической изменчивостью, в том числе некоторых разновидностей канцерогенеза.

Знание о характерных семействах или свойствах повторов может позволить

определить принадлежность последовательностей ДНК к определенным участкам геномов или хромосомам.

Апробация диссертационного исследования. Основные результаты были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии МССМВ в 2003 и 2005 годах, на конференции BGRS по Биоинформатике Геномной Регуляции и Структуре в Новосибирске в 2004 и 2006 годах, на конференции JOBIM в Монреале в 2004 году, на конференции молодых ученых «Ломоносов» в 2004 и 2005 годах, на Международной школе «Биоинформатика, геномика, протеомика» в Алматы в 2006 году, на Международной Конференции по Исследованиям в области Вычислительной Молекулярной Биологии RECOMB в Венеции в 2006 году, на симпозиуме по Биоинформатике, Геномике и Функциональному Назначению Микросателлитов и Полиморфных Тандемных Повторов (VNTRs) MICROSAT в Будапеште в 2006 году, а также на Международной Летней Школе и Симпозиуме по Эволюционной Геномике в Берлине в 2006 году.

Структура и объем диссертационного исследования. Диссертационное исследование состоит из Введения, Обзора литературы, четырех глав, Заключения, Приложений и библиографического списка. Глава 1 основной части посвящена подробному описанию построения статистической модели для оценки статистической значимости наблюдаемых периодических структур, либо используя вероятностные формулы (полученные с помощью производящих функций в рамках теории элементарных языков), либо с помощью средств комбинаторной алгебры. Кроме того в главе формулируются статистические критерии, позволяющие идентифицировать характерные сложные структуры в генетических текстах. В главе 2 основной части приводится подробное описание алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических критериев. Также глава 2 содержит описание реализации алгоритма, списка параметров и выдачи программы. Главы 3 и 4 посвящены применению алгоритма для поиска периодичных сигналов в последовательностях ДНК различных эукариотических геномов, а также в сегментах геномов, отличающихся различными структурными и функциональными свойствами. Материал диссертации изложен на ¡1 ^страницах и сопровождается 22 рисунками и 4 таблицами.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ

Микро-, минисателлиты и другие виды тандемных повторов: их роль и особенности распределения. В эукариотических геномах представлено большое разнообразие различных регулярных структур. Значимую их часть составляют тандемные повторы. Тандемным повтором называют последовательность нуклеотидов, которую можно представить, как некое слово, повторяющееся одно за другим без делеций и вставок, но с возможными ошибками. Тандемные повторы в ДНК могут быть связаны со следующими функциями и фенотипическими особенностями:

Отмечено их влияние на транскрипцию; например, из-за образования не В-форм ДНК, или же благодаря формированию комплексов белков с ДНК повтора. В последнем случае тандемный повтор играет роль сайта связывания транскрипционного фактора. Существуют также белки, узнающие повторы в РНК, таким образом, возможно влияние тандемных повторов на трансляцию. Повторы, входящие в состав структурного гена, могут обуславливать повторы в белке и белковый полиморфизм. Так же, одной из функций микросателлитов является инсуляция. Внутрилокусная экспансия тринуклеотидных повторов CTG/CAG, может приводить к различным заболеваниям (например, к миотонической дистрофией, болезни Хантингтона (Huntington's) и спиноцеребральной атаксии). Найдено уже 14 неврологических заболеваний, вызванных экспансией тринуклеотидных повторов как в кодирующей, так и в некодирующей части генов. С заболеваниями могут быть связаны и нетринуклеотидные повторы - от тетра- и пента- до 82-х нуклеотидных. Так, при отличии повтора в промоторе гена NOS2A от (ССТТТ)м может быть существенно увеличена вероятность диабетической ретинопатии. Высокий уровень экспрессии инсулинового гена в тимусе, связанный с повышенным числом повторов 14-нуклеотидной единицы, может усилить отбор против инсулин-специфических Т-лимфоцитов, что может сыграть критическую роль в патогенезе инсулин-зависимого сахарного диабета. Альтернативный сплайсинг теломеразы с образованием неактивного фермента связан с наличием GGG-повторов. Тандемные повторы могут влиять также на импринтинг и функционирование дифференциально метилированных районов, обусловливающих импринтинг. Предполагается участие повторов в контроле репликации и клеточного цикла.

Повторяющиеся последовательности в ДНК и РНК могут иметь специфическую структуру и узнаваться с достаточно высокой избирательностью разными клеточными белками. Развитие одних заболеваний и наличие предрасположенности к другим тоже может быть связано с полиморфизмом по микро- и минисателлитам.

Построение статистической модели для оценки статистической значимости наблюдаемых периодических структур. Формулировка статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах. Проблема оценки статистической значимости возникает при выборе правильной длины периода в участке, обладающем периодической структурой. Примером может служить последовательность АСТ|АСТ|АТТ|АСТ|АТТ|АСТ, которую можно рассматривать как шестикратный повтор слова ACT, либо как трехкратный повтор слова АТТАСТ. Большинство алгоритмов, включая наиболее популярный Tandem Repeat Finder, не могут дать ответ на вопрос, какой период будет в данной ситуации предпочтительным, и выводят одну и ту же последовательность по нескольку раз с различными значениями периода. И хотя есть задачи, когда это и требуется, зачастую для составления карт, например в таких приложениях, как The Human Genome Browser, нужно иметь инструмент для выбора «правильного» периода. Для решения этой задачи можно использовать оценку статистической значимости найденного повтора с соответствующим разбиением на повторяющиеся единицы. Статистическая значимость отражает вероятность найти структуру подобную данной в случайном тексте, сгенерированном в соответствии с определенной моделью. Отсюда следует еще одно важное приложение значения статистической значимости - для сильно вырожденных повторов возможность оценить вероятность их случайного появления в тексте. Другими словами подсчет статистической значимости для периодической или псевдопериодической последовательности может дать ответ на вопрос, действительно ли следует ее рассматривать как повтор, или же ее появление в тесте генома можно отнести на счет квазислучайных флуктуаций.

Было разработано два подхода к построению модели для оценки статистической значимости повтора. Опишем сначала первую, называемую в дальнейшем моделью «motif».

Итак, пусть у нас есть подпоследовательность S = которую мы

рассматриваем, как Ажратный повтор мотива длины L. То есть, можно выписать к слов, похожих друг на друга, найденных одно за другим в последовательности: w¡ = S¡S2-..Si, w2 = 5¿+i5í+2...S2í.---. wk = SLk-LHSLk-L+2---Stí.. Выписав эти слова одно под другим, мы можем увидеть, что одни позиции более консервативные, чем другие; например, на одних возможен выбор из двух букв, на других может стоять любая буква. Чтобы учесть эту информацию, мы составляем IUPAC консенсус для выровненных слов - единиц повтора. Заметим, что под консенсус подходят не только те слова, которые образуют данный тандемный повтор. Например, под консенсус WAS, построенный для повтора TAG|AAG|AAC|TAG подходит также слово TAC.

Теперь мы можем считать, что построена модель для тандемного повтора: конкретный тандемный повтор рассматривается как реализация множества где Н это множество слов, подходящих под IUPAC консенсус, а к число копий. Таким образом, оценить статистическую значимость повтора можно через подсчёт вероятности встретить слово из ht в случайном тексте с заданными распределением и длиной. В нашем подходе мы считаем вероятность встретить слово из // при условии, что мы нашли уже хотя бы раз слово из Н. В литературе вероятность встретить в случайном тесте длины N слово из произвольного множества М, состоящего из q слов длины т, называется «вероятностью первой встречи» слова из множества или p-value. Самый простой способ ее посчитать это применить приближенную формулу Пуассона:

P-valuePoisson(A/) = 1 - (1 -^

где Pr(М) это вероятность встретить слово из множества М на произвольной позиции, N длина текста, ш длина слов из множества М.

Вероятность Рг(Л/) есть сумма вероятностей встретить каждое отдельное слово из множества М на произвольной позиции. Рг(М) = ^ Р(('->). В рамках модели Бернулли

вероятность Рг(со) есть произведение вероятностей букв со,-, составляющих слово со.

Рг(«) = ?т(й\а)2---тс) = ^ Vr(új).

i

Основной минус использования формулы Пуассона для множества it следующий: события встречи слова из данного множества на соседних или близких позициях считаются независимыми. Такое приближение, в принципе, может иметь место, но оно является слишком грубым в случае тандемных повторов.

В случае же тандемных повторов (множества //) оказалось, что ошибки, связанной с самопериодичностью слов, можно избежать, введя поправочный множитель. Формула, дающая очень точное приближение имеет вид:

PF-value(tf ') -1 -(l-PrkF{H){ 1 -PrF{H)))N~LW .

Здесь Prf(H) означает то же самое, что и Рг(Н) в формуле Пуассона, вероятность мотива как множества слов. Уточненная формула была выведена с использованием аппарата производящих функций в рамках теории элементарных языков развитой в INRIA, Rocquencourt. Подробный вывод представлен в разделе «Вывод формулы для PF-value(#*) » в тексте диссертации.

Сама формула, по которой считается условная вероятность, на основе которой оценивается статистическая значимость повтора в модели «motif», есть:

тк\

Рг (нк\п\- Pr"Valuc(//)

conditional \ I rv , /ттл

' 1 ' P-valuePoisson (Я)

Вторая модель, «mask», для подсчета статистической значимости повтора основана на учете структуры повтора, консервативности позиций. Для нее не важны конкретные буквы, из которых состоит повтор, а скорее насколько часто одна и та же буква встречается в конкретной позиции.

Рассмотрим ¿-кратный повтор, слово S, S = vviW2...wi. Слова wi,w2,...vvt похожи между собой, но не обязательно идентичны. Обозначим через L их общую длину: L = |w;|. Выровняв их относительно друг друга, т.е. выписав слова wi,w2,- -nic одно под

другим, для каждой позиции i:\<i<L, мы можем сказать чему равно максимальное количество идентичных букв для этой позиции. Обозначим эти числа через к,.

Далее, для набора (X; к\ к\,....1к\) мы можем посчитать вероятность Vis(L\k\kx,k2,...,kL) встретить такую структуру случайно на произвольной позиции в тексте. Мы находимся в рамках модели Бернулли для текста, с вероятностями букв рА, Pc, Pg, Рт- Поэтому мы можем считать позиции независимыми и просто перемножить вероятности встречи как минимум к, идентичных букв на позиции / для каждой позиции г: 1 < ; < L . Для каждой же позиции / вероятность найти не менее чем к,, идентичных букв, получается как сумма вероятностей полиномиальных распределений.

L

k\

РгД£;*;Л„*2,...Л) = П Z

пл\пс\па\пт !'

\Рл'РсРсРт

'а'"с'nG

3aeu,c,G,Ty.nu>ki

Для оценки значимости найденного повтора в тексте длины N в модели "mask" мы используем оценку вероятности встретить структуру, описываемую набором (L; к;

в случайном тексте длины N. Под эту структуру, «маску», подходят все слова длины Lk, для которых при выравнивании их к подслов w\,w2,...\Vk длины L на каждой позиции ( количество идентичных букв не меньше, чем к,. Эту вероятность мы оцениваем, применяя приближенную формулу Пуассона.

Безусловно, минусом этого подхода является то, что мы не учитываем самоперекрывания слов, подходящих под «маску». Но учет этого слишком усложнил бы задачу, к тому же, в случае модели «mask» нет такой строгой структуры самопересечений, как в модели «motif», и вероятность, которой мы пренебрегаем, обычно сильно меньше, чем та, которой мы бы пренебрегли, если бы использовали обычную формулу Пуассона в модели «motif».

Итак, можно сказать, что в диссертации сформулированы две модели для сопоставления повтору множества слов с похожей структурой, включающее данный повтор. В модели «motif» это слова, подходящие под консенсус, в модели «mask» это слова, подходящие под «маску», т.е. обладающее не меньшей, чем у данного повтора, консервативностью позиций.

Выбор между этими моделями для оценки статистической значимости повторов стоит за исследователем. Наш опыт показывает, что алгоритм поиска не сильно чувствителен к смене модели, но в наших экспериментах мы все же предпочитали модель «mask», потому что в тех случаях, где наблюдалось расхождение, модель «mask» работала более адекватно. С другой стороны, эта модель не учитывает буквенный состав повтора, поэтому в текстах с сильно смещенным от равномерного распределением букв, мы бы посоветовали пользоваться моделью «motif».

Ps -value = 1 - (1 - Prs(L-k;k,,k2,...,kL

2>- • ■ >"l

Разработка алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов. Обычно, поиск периодических сигналов в последовательностях биополимеров осуществляется при помощи автокорреляционного анализа и/или выравнивания повторяющихся единиц (последний алгоритм используется, например, в TRF). Однако, такие алгебраические методы, сами по себе, не могут выбрать наилучший повтор среди нескольких пересекающихся повторов с различной длиной периода. К тому же, в случае сильно вырожденных тандемных повторов нельзя пренебрегать возможностью заметить вырожденный повтор случайно, просто потому что вероятность встретить данный повтор на произвольной позиции велика, а текст, в котором осуществляется поиск, имеет достаточно большую длину. В нашей работе мы добавили к алгоритму поиска повторов статистический критерий, позволяющий различить значимые повторы от менее значимых.

Первый шаг алгоритма состоит в определении кандидатных повторов с помощью автокорреляционного анализа. А именно, определяются кандидатные повторы для каждого значения длины периода Т из интересующего нас интервала. Для каждой позиции / данной последовательности с помощью алгоритма производится сравнение слова длины Т на позиции / со словами той же длины на позициях i-Tи i+T. Для каждой буквы изначального слова количество замен, найденных при сравнении на каждой позиции, записывается в соответствующей позиции массива и>. Т.е., если все три символа, разделенные периодом Т, совпадают, то в позиции, соответствующей средней букве массива w, записывается 0; если только два символа из трех совпадают, то в w записывается значение 1; и если все три символа различны, то значение соответствующей позиции w будет равно 2.

С помощью алгоритма определяются возможные тандемные повторы по минимальным значениям массива локальных сумм элементов массива w, при вторичном проходе всех позиций последовательности. Все позиции с локальной суммой, превышающей определенный порог К, включаются в кандидатный повтор длины периода Т. Большие значения К соответствуют тандемным повторам с большей степенью вырожденности. Данная процедура повторяется для каждого значения Г длины повтора из заданного интервала. Для каждого Т алгоритм позволяет находить повторы с длиной периода Г, пробегая все значения К от нуля до (Т-С), где С это определяемый пользователем параметр, 'уровень значимости' (significance level), буквально

означающий максимально допустимое количество замен.

На втором шаге алгоритма происходит процесс фильтрации найденных тандемных повторов. В общем случае найденные на первом шаге повторы могут пересекаться. Но для составления геномных карт желательно, чтобы пересечение повторов, покрывающих последовательность, было минимально. Поэтому мы производим фильтрацию пересекающихся повторов (например, с кратными периодами, такими как 3 и 6) с целью выбрать из них наиболее значимый повтор. На шаге фильтрации повторов, все найденные тандемные повторы сравниваются попарно между собой. Сначала повторы с одинаковой длиной периода, а потом все оставшиеся. При сравнении пары повторов, в случае их пересечения в базе остается более значимый, т.е. тот, у которого Р-уа1ие меньше. Мы считаем, что повторы пересекаются, если длина пересекающегося слова больше, чем максимальная длина периода двух слов.

После стадии фильтрации оставшиеся, наиболее значимые повторы, выводятся в виде таблицы с указанием последовательности, в которой они были найдены, начальной и конечной позиций, длины повтора, длины периода, количества копий, консенсуса, РБ-уаЫе и Рр-уа1ие, количества слов, подходящих под консенсус и самого повтора.

Надо заметить, что алгоритм не определяет повторы с длиной периода равной 1 или 2, что соответствует полинуклеотидным трактам и последовательностям типа ТАТА. Данные виды повторяющихся структур и способы их обнаружения в последовательностях ДНК были описаны в других работах, посвященных соответствующим объектам.

Реализация алгоритма и создание «еЬ-приложения. Разработка Интернет-сайта, посвященного программе. Алгоритм поиска тандемных повторов без делеций и вставок в последовательностях ДНК, подробно описанный в предыдущем разделе, был реализован на языке С++ и получил название ТапсктЭХУАМ. Также был создан сайт, с которого можно загрузить запускаемую с командной строки версию программы или же использовать \уеЬ-версию Тапс1ет5\УАМ. Сайт может быть найден по адресу Ы1р://ЬющГото.кепеика.ги/ргокчП8/$шап%ц.лу.

Создание базы данных тандемных повторов в различных эукариотических организмах. Анализ распределений повторов и выделение характерных

особенностей повторов для хромосом. Целью дальнейшего исследовании было получение распределения микро- и минисателлитов с различными характеристиками в геноме человека и других эукариотических геномах и выявить характерные особенности их распределения.

Для работы с геномом человека мы использовали его 17ю версию, предоставляемую базой The Human Genome Browser at UCSC. В качестве инструмента для нахождения тандемных повторов в нуклеотидной последовательности мы использовали программу TandemSWAN, подробно описанную в главах I и 2 диссертационной работы, основной особенностью которой является оценка статистической значимости найденных структур. Тем самым была решена проблема выделения правильного периода и была возможность отфильтровать незначимые/случайные повторы. В программе TandemSWAN использовались следующие значения параметров: длина повторяющего слова от 3 п.н. до 200 п.н., модель mask, уровень значимости повторов равный трем.

Была создана база данных тандемных повторов, найденных с такими параметрами в геноме человека. Полная база повторов доступна по адресу /www.bionform.genetika.ru/ Множество тандемных повторов, лежащих в базе данных, покрывает около 30% процентов человеческого генома.

При поиске регулярных структур, в нашем случае тандемных повторов, в тексте большой длины важно иметь в виду возможность случайной встречи этих структур. Так, например, если трехкратный повтор слова длины три будет значимым в тексте длины пятнадцать, то в геномном тексте длины 100000 п.н. его уже можно считать случайным. Таким образом, нам было необходимо провести дополнительную фильтрацию по значимости повторов. На Рисунке 1 показано распределение суммарных длин повторов для каждого периода в зависимости от порога значимости, используемого при фильтрации. Порог при фильтрации выбирался на вероятность PrS, определение которой дано выше.

Из рисунка 1 видно, что плотность распределения найденных повторов сдвинута в сторону коротких периодов (до 25 п.н.). Но по мере фильтрации повторов по значимости, короткие или сильно вырожденные повторы отсеиваются, и остаются длинные повторы, в основном с большой длиной повторяющейся единицы, либо повторы коротких мотивов, но с большим количеством копий.

—в— без фильтрации

SSV>3 -*-SSV >5 -♦-SSV >7 —(— SSV >9

-SSV >11

--------SSV >13

-»-SSV >15 —♦—SSV >17 SSV >20 SSV >25 —к— SSV >30 -Hi-SSV >40

22 26 30 34 39 4 2 46 50 54 58 62 66 70 длина периода

Рис. 1. Суммарное покрытие тандемными повторами с различной длиной периода хромосомы 22 (49554710 п.н.) генома человека (Пая UCSC версия). Фильтрация на основе различной статистической значимости Prs (SSV = -logio Prs).

Для дальнейшего исследования был выбран порог 10"15 на вероятность Prs. Порог фильтрации был выбран так, чтобы вероятность наблюдения данной периодической структуры на произвольной позиции была бы не больше 10~15. В дальнейшем, в нашей работе будут фигурировать только такие статистически значимые тандемные повторы.

Используя полученную базу данных повторов в человеческом геноме, мы сравнили разметку для минисателлитов в аннотации генома человека UCSC Human Genome Browser с разметкой, полученной при помощи программы TandemSWAN. Оказалось, что значительная часть минисателлитов с периодами от 25 до 70 п.н. не была ранее определена как повторы. Таким образом, одним из результатов нашей работы явилось создание более полной карты минисателлитов в человеческом геноме. Точная доля повторов с длиной периода от 25 до 70 п.н., найденных на 22-ой хромосоме и замаскированных ранее TRF или RepeatMasker, равняется 57 процентам. Оставшиеся 43 процента повторов можно считать найденными впервые. Примеры найденных, но не замаскированных TRF или RepeatMasker повторов приведены в таблице 1.

Таблица 1. Примеры выравниваний повторов, найденных программой ТапсктБУ/АН на хромосоме в 17-ой версии человеческого генома, незамаскированных Т11Р или Яереа1Мазкег.

chr 22,14564582-14564906, period length 66

tttcaagctccatgttgttacgagcatctgctctgagctccatcttacaccgagcaacatctgctc

caagttccatcttgcttggagctcctttttgttcagagctctatctgctccaagctcaatcttctc

tgagctccatcttgcttggagctctaatcattctgagctccatcatgctctgagcaccatctgctc

tgagcaacatctgcaccaagctccatcttgcttagatctccttattgctcagagtttcatctgctc

tgagcaccatcttgttcagagctccatcttgctcagagttccaactgctcagagaactgtt

chr 22,19678751-19678939, period length 63

gcaaagtcctgcacatgctccttcagagtctggcgggcatctgcctgtgcccgcttctcccgt gcccgctcctgctgcagcttggtcagtctcaaccgcagccgctgctcccgccgcttgcaggcc tgcagctggcgctgggccttgtcaagggcatcaagggctgcctcggctcgccgcttccagagt chr 22, 23414686-23414980, period length 55

tttcggttgttgagggactggtgtgtacccctgggggctcggtatccacttggag

gttgggtgtccgtgtggaacctgatgtacctgtggacctggttgcccacatgggt

cctggtgtccacctggagcctgatgtttcccaggggcctgggtatccactggggt

cccgatgttcatctaggagctggtgttcacctaggccctgatagtcacctggggg

ctgggtatgtacctgaggcctcatgtccacctgtgctgtaggtatctatgcatgg

gctgtgtgccaacctggtgc

chr 22, 43460819-43461054, period length 36

catatggggatgctcccacagcacagagaggtgccc

atcatatggagatgctcccactgcacagatactccc

attgcacagatactcccacagcacagagaggtgccc

atcatatggggatgctcccactgcacagatactccc

attgcacagatactcccaccgcacagagaggcaccc

atgatatggggatgctcccactgcacagatgctccc

acggcacagaaaggcaccca

chr 22, 17112843-17113046, period length 27

cacgctaacaaggatgctgtacacaac

gtcgctaatgaggacagtgtacaagcc

atcgctaatgaggacactgtatatgac

attgctaacgaggacactgtacaaggc

attgctaacgaggacgctgtacacaac

atcgctaatgaggacaccatataagac

atcaccaatgaggatgctgtatatgac

atcgctaatgacacc

С целью выявления семейств минисателлитов в геномах эукариот, был разработан метод, берущий за основу предположение, что повторы из интересующих нас семейств минисателлитов не распределены случайно вдоль хромосом, а образуют своего рода кластеры. Нами было написано простое приложение, в котором для каждого значения длины периода Р из рассматриваемого диапазона (3-200 п.н.) считается значение статистики Колмогорова-Смирнова.

начальных позиций повторов с длиной периода Р, выборка У — },<,<„ состоит из начальных позиций повторов с всевозможными длинами периода из рассматриваемого диапазона (3-200 п.н.).

Слишком большое значение -\Jnnj /(п + т)Оп т противоречит гипотезе об

однородности X и У. Т.е. нам как раз и нужны такие длины периодов, для которых значение этой статистики значимо превышает а-квантиль (а можно положить равным

С точки зрения точной науки применение данного критерия к данной задаче спорно, т.к. функция распределения не принадлежит к классу непрерывных функций и не все компоненты вектора (Х\, ..., Х„, Уи...,Ут) независимы. Но в силу большой длины хромосомы и большого интервала значений длин периодов для выборки У этот критерий можно использовать на первом шаге анализа распределения семейств минисателлитов. В дальнейшем нами был проведен дополнительный анализ повторов с выделенными длинами периодов, для которых тест показал максимальное отклонение от общего распределения.

В результате для каждой из хромосом человеческого генома были обнаружены семейства минисателлитов с неслучайным распределением вдоль хромосом. Почти для всех хромосом характерно наличие неоднородно распределенных семейств повторов для длин периодов 170-172 п.н. и 67-68 п.н. О последних известно, что они являются А1и-элементами. Повторы с периодом 170-172 п.н. относятся к классу а-сателлитов. Они характерны для центромерньгх областей всех нормальных хромосом генома человека.

где

1£,<„ состоит из

10%).

Помимо выше перечисленных семейств почти для каждой хромосомы характерны семейства повторов со своим особенным периодом. Например, для хромосомы Y это повторы с длиной периода 125 п.н., классифицируемые программой RepeatMasker как длинные концевые повторы (LTR) класса ERV-1. Также, для хромосомы Y на 5'-конце характерно наличие повторов с длиной периода 26п.н. В аннотации генома большинство из них фигурируют как простые повторы (simple repeats). Однако, нами были обнаружены и новые члены этого семейства, не классифицированные в последней аннотации генома как повторы. Примером может служить повтор, найденный на позициях 2342928-2343044 хромосомы Y, выравнивание для которого дано ниже.

AATGACCAATCCCACTAGACCTCATC ATGAC СТААС CAAAC TGGAC ТТС АТС АТААС СТААС ССААСTAGACСТСАТС ATGACATGAGACAACTAGATCTCATC ACGACCTACCCAA.

Для повторов с периодом 38п.н. и кратным 76п.н. явно видны пять кластеров. Большинство повторов определены в аннотации человеческого генома как бета-сателлиты (BSR). Эти же участки содержат повторы с длиной периода 71 п.н. Примечательно, что длина периода в этом случае не кратна 38.

Интересно также заметить, что для других выделенных периодов в хромосоме Y (165п.н., 177п.н., 183п.н., 200п.н.) мы наблюдаем скопления повторов с данными длинами периодов в субтеломерной зоне 5'-конца хромосомы.

Подобно хромосоме Y были рассмотрены другие хромосомы генома человека и определены их характерные минисателлитные семейства. Использовать информацию о различных превалирующих периодичностях в различных хромосомах можно для определения принадлежности произвольного, достаточно длинного участка ДНК к соответствующей хромосоме по наличию или отсутствию характерных сателлитов.

Анализ распределений повторов с короткой длиной периода и выделение характерных особенностей повторов в различных функциональных участках ДНК на примере Л. melanogaster. Гипотеза частичного происхождения миннсателлитных последовательностей от микросателлнтных. Следующим шагом стал поиск и анализ распределения минисателлитов в геномах других видов эукариот. Были взяты геномы представленные в базе данных Ensembl: Caenorhabditis elegans, Ciona intestinalis, Ciona savignyi, Drosophila melanogaster, Drosophila pseitdoobscura, Tetraodon nigroviridis, Danio rerio, Gallus gallus, Canis familiaris, Rattus norvegicus и Mus musculus. В этих геномах были определены повторы со следующими параметрами: минимальная длина периода - 3 п.н., максимальная - 200 п.н., минимальное количество копий - три, модель - mask, уровень значимости повторов равный трем. Далее были выделены повторы с высокой статистической значимостью, а именно с Prs<10"15.

В результате подсчета суммарной доли покрытия периодическими структурами рассматриваемых геномов выяснилось, что не наблюдается никакой видимой корреляции между длиной генома и долей его покрытия повторами. Однако, относительное отличие между долей покрытия различных хромосом одного генома повторами тем больше, чем короче геном.

При сравнении распределения периодичностей в различных организмах оказалось, что кривые распределения повторов могут значительно различаться даже у достаточно близких видов. Так, покрытие тандемными повторами различной длины периода геномов двух рыб Tetraodon nigroviridis и Danio rerio разительно отличается. Или, что более удивительно, тандемные повторы с длиной периода до 50 п.н. в геноме Rattus norvegicus встречаются чуть ли не в два раза реже, чем в геноме Mus musculus.

Что касается особенностей распределения повторов в хромосомах отдельных видов, то, например, замечено, что в распределение в половых хромосомах эукариот значительно отличается от распределения в аутосомах. Так, например, в хромосомах Y обычно перепредставлены по сравнению с другими хромосомами сателлитные последовательности с определенными длинами периода. В X хромосомах - частота покрытия повторами чуть выше в среднем почти для всех длин периодов. Однако, распределения для различных аутосом одного генома, в достаточной мере совпадают.

Также, в результате тестирования программы TandemSWAN были получены примеры минисателлитных последовательностей (длина повторяющейся единицы от 6

п.н.) которые можно рассматривать как микросателлитные повторы (длина повторяющейся единицы не более 6 п.н.) с большим количеством замен. Иными словами внутри довольно консервативной повторяющейся единицы можно выделить более короткий повторяющийся мотив. Подобная «фрактальная структура» сателлитов была описана в литературе. Примеры, которые мы наблюдали, позволили высказать гипотезу возникновения многих локальных минисателлитов как результат следующего процесса: появление микросателлитной последовательности при помощи соответствующего механизма (например, репликационный сдвиг), точечные мутации в микросателлите и дальнейшее размножение повтора с помощью механизмов, характерных для возникновения и размножения минисателлитных повторов, таких как неравный кроссинговер и др.

Для изучения повторов в последовательностях с различными функциональными характеристиками была выбрана экспериментально проаннотированная система локусов генов раннего развития D. melanogaster, система локусов D. pseudoobsura, проаннотированная по гомологии, а также была использована аннотация Drosophila genome project. Распределение тандемных повторов с длинами периода до 25 п.н. в различных функциональных участках D. melanogaster и D. pseudoobsura представлено на рисунке 2.

Из рисунка 2 видно, что тандемные повторы с длиной периода, кратной трем, перепредставлены в кодирующих областях, а повторы с длиной периода, кратной шести, в нетранскрибируемой ДНК. Это тем более интересно, т.к., например, в геноме человека в нетранскрибируемых участках среди минисателлитных повторов короткой длины и микросателлитов превалируют повторы с длиной периода, кратной четырем.

Было замечено, что в кодирующих участках покрытие периодическими структурами было максимально, при этом среди них 66% относятся к повторам с длиной периода кратной трем. Для примера в регуляторных участках доля повторов с длиной периода кратной трем составляет всего 40.5%.

В гетерохроматине доля покрытия тандемными повторами с короткой длиной периода (до 25 п.н.) оказалось самой низкой, но это компенсируется наличием сателлитных семейств с большой длиной периода, таких, например, как бета-сателлиты.

Далее, среди статистически значимых повторов, самой низкой доля покрытия (15.4%) была для регуляторных областей, следующей (15.6%) для 5'-нетранслируемых

областей. Интересно, что доля покрытия З'-нетраслируемых областей (20.1%) очень близка к доле покрытия кодирующих участков (23%).

Рис. 2. Доля покрытия тандемными повторами с различной длиной периода различных функциональных участков ДНК геномов О. melanogaster и й. рзеис1ооЬзсига. Для сравнения на всех графиках '-х-' показывает долю покрытия 1Мб случайной последовательности Бернулли с частотами букв, средними по геному.

(a) Экзоны О. те!апо§аз1ег: '-*-', аутосомы; '-Д-', Х-хромосома;

(b) межгенные участки и гетерохроматин £>. melanogasler. '-*-', межгенные участки в аутосомах; '-&-', межгенные участки в Х-хромосоме; '-□-', гетерохроматин.

(c) Нетранслируемые участки £). '-'-', 5'-иТ115 в аутосомах; '—о—', З'-иТЯв

в Х-хромосоме; '-О-', З'-UTRs в аутосомах; '-*-', З'-UTRs в Х-хромосоме;

(d) Сравнение регуляторных и межгенных участков в аутосомах D. melanogaster. '-*-', энхансеры системы dorsal and twist; '-о-', 124 энхансера раннего развития D. melanogaster; '—Д—межгенные участки в аутосомах;

(f) Межгенные и кодирующие участки в геноме D. psendoobscura\ '-□-', межгенные участки в аутосомах; межгенные участки в Х-хромосоме ; '-*-', экзоны в аутосомах; '—Д—экзоны в Х-хромосоме;

(g) Кодирующие участки D. pseudoobscura и D. melanogaster. '-□-', аутосомы D. pseudoobscura; '-*-', аутосомы D. melanogaster,

(h) Межгенные участки D. pseudoobscura и D. melanogaster: аутосомы D. pseudoobscura; '-*-', аутосомы D. melanogaster;

(i) регуляторные участки D. pseudoobscura и D. melanogaster: D. pseudoobscura; '-*—', D. melanogaster.

ВЫВОДЫ

1. Разработан алгоритм поиска сильно вырожденных тандемных повторов без делеций и вставок.

2. Получены формулы для оценки статистической значимости сильно вырожденных тандемных повторов без делеций и вставок с учетом их самоперекрывающейся структуры.

3. Разработанный алгоритм использован для выявления новых объектов, обладающих выраженной регулярной структурой.

4. Выявлены характерные паттерны распределения тандемных повторов в зависимости от длин периодов для хромосом различных геномов эукариот, включая геном человека.

5. Выделены семейства локальных и дисперсных микро- и минисателлитов, характерных для той или иной хромосомы, и проведен их анализ с учетом существующих аннотаций.

6. Выявлены различия в распределении тандемных повторов в различных функциональных областях геномов: регуляторных, кодирующих, спейсерных, межгенных областях, гетерохроматине, 5'- и З'-нетранслируемых областях.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

Научные журналы:

1. Boeva, V., Regnier, М., Papatsenko, D., and Makeev, V. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006. 22(6): стр. 676-684.

2. Боева, B.A., Фридман, M.B. и Макеев, В.Ю. Эволюция микро- и минисателлитов в геноме человека. Биофизика, 2006. 51(4): стр. 650-655.

3. Boeva, V., Clement, J., Regnier, M., and Vandenbogaert, M. Assessing the Significance of Sets of Words. В тезисах Combinatorial Pattern Matching (CPM) 2005. 2005. Jeju Island, Korea: Опубликовано в электронном виде в Lecture Notes in Computer Science, Springer Verlag, 3537: стр. 358-370.

Тезисы конференций:

1. Boeva, V., Makeev, V.J., and Regnier, M. Probability of tandem repeats in nucleotide sequences. В тезисах International conference MCCMB'03. 2003. Moscow, Russia. Стр. 46-47.

2. Boeva, V.A., Regnier, M., and Makeev, V.J. Algorithm for searching for highly divergent tandem repeats in DNA sequences, statistical tests, and biological application in Drosophila melanogaster genome. В тезисах The Fourth International Conference on Bioinformatics of Genome Regulation and Structure. 2004. Novosibirsk, Russia. Том 1, стр. 34-37.

3. Boeva, V.A., Regnier, M., and Makeev, V.J. SWAN: searching for highly divergent tandem repeats in DNA sequences with the evaluation of their statistical significance. В тезисах JOBIM 2004. 2004. Montreal, Canada. Стр. 40.

4. Boeva, V., Makeev, V.J., and Regnier, M. Search for degenerate tandem repeats in nucleotide sequences. Their possible role in regulation of gene expression. В тезисах International conference MCCMB'05. 2005. Moscow, Russia. Стр. 54-56.

5. Боева, B.A. Поиск тандемных повторов (минисателлитов) в последовательносях ДНК, сравнение распределений минисателлитов в различных эукариотических

геномах. В Материалах Международной школы «Биоинформатика, геномика, протеомика». 2006. Алматы, Казахстан. Стр. 7.

6. Boeva, V. and V.J. Makeev. Minisatellites in Eukaryotic Genomes, Analysis with TandemSWAN Program. В Материалах The 2nd International Tandem Repeat Consortium workshop on the Bioinformatics, Genomics and Functionality of Microsatellites and VNTRs, MICROSAT 2006. 2006. Budapest, Hungary. Стр.14.

7. Boeva, V. and V.J. Makeev. Minisatellites Evolution in Eukaryiotic Genomes. В тезисах Otto Warburg International Summer School and Workshop on Evolutionary Genomics. 2006. Berlin, Germany. Стр. 33.

8. Boeva, V.A. and V.J. Makeev, Micro- and Minisatellites in Human genome, TandemSWAN software in use. В тезисах The Fifth International Conference on Bioinformatics of Genome Regulation and Structure, 2006. Том 3: стр. 118-121.

Заказ №139/12/06 Подписано в печать 21.12.2006 Тираж 90 экз. Ус», ил. 1,5

V 000 "ЧиФРовичок"' тел- (495> 797-75-76; (495) 778-22-20 www.cfr.ru ; е-таИ:info@cfr.ru

Содержание диссертации, кандидата физико-математических наук, Боева, Валентина Анатольевна

ВВЕДЕНИЕ Стр.

ОБЗОР ЛИТЕРАТУРЫ

Микро-, минисателлиты и другие виды тандемных Стр.12 повторов. Механизмы возникновения и размножения в геноме. Их роль и особенности распределения.

Поиск тандемных повторов в последовательностях Стр.28 биополимеров. Обзор алгоритмов и приложений.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Глава I. Построение статистической модели для оценки Стр.33 статистической значимости наблюдаемых периодических структур. Формулировка статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах.

Глава 11. Разработка алгоритма поиска периодических Стр.51 структур в последовательностях ДНК с использованием статистических инструментов. Реализация алгоритма и создание web-приложения. Разработка Интернет-сайта, посвященного программе.

Глава III. Создание базы данных тандемных повторов в Стр.60 различных эукариотических организмах. Анализ распределений повторов и выделение характерных особенностей повторов для хромосом.

Глава IV. Анализ распределений повторов с короткой Стр.74 длиной периода и выделение характерных особенностей повторов в различных функциональных участках ДНК на примере D. melanogaster. Гипотеза частичного происхождения минисателлитных последовательностей от микросателлитных.

Введение Диссертация по биологии, на тему "Идентификация и анализ тандемных повторов и близких структурированных сигналов в ДНК"

Актуальность темы исследования. Основным механизмом геномной эволюции долгое время считались точечные мутации нуклеотидов в последовательностях ДНК. Однако в последнее время было показано, что одним из важных дополнительных механизмов изменчивости являются геномные перестройки, в частности тандемные дупликации и мультипликации.

Механизмы дупликаций коротких слов, приводящие к возникновению и размножению микросателлитов, отличны от механизмов дупликации более длинных участков генома, приводящих к возникновению минисателлитов. Тем не менее, в обоих случаях могут возникнуть новые промоторные области, сайты альтернативного сплайсинга и т.д.

После возникновения сателлитной последовательности в результате действия одного из вышеописанных механизмов возможно изменение последовательности в результате точечных мутаций, что может привести к почти полному «исчезновению» сателлита. По-видимому, именно такие, деградировавшие сателлиты рекрутируются для различных биологических функций, включая регуляцию транскрипции и репликации, структурные модификации белков и т.д. Таким образом, требуется метод поиска сильно вырожденных, тандемно повторяющихся мотивов в последовательностях ДНК. Ввиду значительной вырожденности подобных повторов возможна неверная идентификация случайного участка генома как вырожденной сателлитной последовательности. Поэтому необходима оценка значимости найденных структур как неслучайных.

Вопрос разработки алгоритма для поиска тандемных повторов в ДНК стоит последние пятнадцать лет. В настоящий момент существует более десяти различных программ для поиска периодических структур в последовательностях ДНК. Но пока нельзя сказать, что существует единственно возможный исчерпывающий алгоритм поиска. Каждый алгоритм нацелен на определенную задачу и класс определяемых повторов; степень их вырожденности, длина периода и другие параметры различны от программы к программе.

Объект, предмет и метод исследования. Объектом исследования являются периодические структуры в ДНК: микросателлиты (вырожденные и точные повторы с длиной повторяющейся единицы до 6 п.н.), минисателлиты (точные и средне вырожденные повторы с длиной повторяющейся единицы от 6 п.н. до 100 п.н.), сателлитные последовательности (точные и средне вырожденные тандемные повторы с длиной повторяющейся единицы от 100 п.н. до 200 п.н.) и сильно вырожденные, «исчезающие» тандемные повторы с длиной периода до 200 п.н. Предметом исследования является разработка метода идентификации тандемных повторов в ДНК и анализа свойства распределения тандемных повторов в различных функциональных участках ДНК, а также в хромосомах различных эукариотических геномов. Основные применяемые в диссертационном исследовании методы -автокорреляционный анализ для поиска кандидатных тандемных повторов, метод производящих функций и элементарных языков, а также средств комбинаторного анализа для получения формул для оценки статистической значимости найденных повторов. Исходной теоретической основой исследования являются труды отечественных и зарубежных ученых как в области теории алгоритмов, так и в области построения статистических моделей.

Цель и задачи исследования. Основной целью данного исследования является построение алгоритма идентификации тандемных повторов в ДНК с последующим анализом свойств распределения тандемных повторов в ДНК различных эукариотических геномов. Основным результатом работы должно стать получение алгоритма поиска повторов, удовлетворяющих заданным условиям по степени вырожденности и длине периода, как на уровне полногеномного анализа, так и в коротких ДНК-последовательностях, его использование для картирования геномов на предмет наличия периодических структур, выводы о свойствах распределений повторов в геномах.

Достижение поставленных целей предполагает решение следующих задач.

• Построение моделей для представления периодических последовательностей в ДНК.

• Получение формул для оценки статистической значимости повторов для построенных моделей через подсчет вероятностей наблюдения данных структур в случайной последовательности.

• Разработка алгоритма идентификации участков ДНК, обладающих периодической структурой на основе методов автокорреляционного анализа.

• Интеграция процедуры оценки статистической значимости с процедурой поиска периодичностей для построения нового современного алгоритма определения сильно и слабо вырожденных тандемных повторов.

• Имплементация алгоритма в виде отдельного приложения, а также создание Интернет-сайта для возможности сканирования последовательностей ДНК на наличие периодических участков через Интернет.

• Создание базы данных тандемных повторов в различных функциональных участках ДНК различных организмов.

• Анализ распределений повторов и выделение характерных особенностей повторов в каждой группе.

Научная новизна диссертационного исследования.

• Благодаря построению нового алгоритма идентификации периодических структур в ДНК стало возможно изучение нового объекта - сильно вырожденных тандемных повторов.

• Стало возможно получение более полных карт повторов для геномов эукариот. С помощью нового метода были определены обладающие периодической структурой участки, покрывающие до 30% генома, значительная часть которых не была определена как таковая до настоящего момента в существующих аннотациях геномов.

• С помощью нового алгоритма поиска повторов стало возможно провести сравнительный анализ распределения повторов с большой длиной периода (до 200п.н.) в маштабе полных геномов эукариот.

Практическая значимость. Получение формул для оценки статистической значимости повторов дает возможность оценить значимость повторов, найденных в ДНК при помощи других алгоритмов, тем самым, давая инструмент для сравнения качества работы различных алгоритмов.

Были созданы базы данных для различных эукариотических геномов, включая геном человека, содержащие информацию о расположении, длине и количестве копий повторов с указанием их статистической значимости. Эти данные могут быть использованы в научных исследованиях как для маскирования повторов для их дальнейшей элиминации, так и для поиска в них различных сигналов: сайтов связывания белков, горячих точек рекомбинации и др.

Также, анализ распределения повторов в геномах близких и далеких организмов позволит лучше понять процессы эволюции геномов, предположить новые возможные механизмы. Более того, сравнение тандемных повторов в различных гаплотипах даст информацию о полиморфизмах и мутационных явлениях. Это может помочь понять причины возникновения некоторых наследственных заболеваний, а также заболеваний, вызванных соматической изменчивостью, в том числе некоторых разновидностей канцерогенеза.

Знание о характерных семействах или свойствах повторов может позволить определить принадлежность последовательностей ДНК к определенным участкам геномов или хромосомам.

Апробация диссертационного исследования. Основные результаты были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии МССМВ в 2003 и 2005 годах, на конференции BGRS по Биоинформатике Геномной Регуляции и Структуре в Новосибирске в 2004 и 2006 годах, на конференции JOBIM в Монреале в 2004 году, на конференции молодых ученых «Ломоносов» в 2004 и 2005 годах, на Международной школе «Биоинформатика, геномика, протеомика» в Алматы в 2006 году, на Международной Конференции по Исследованиям в области Вычислительной Молекулярной Биологии RECOMB в Венеции в 2006 году, на симпозиуме по Биоинформатике, Геномике и Функциональному Назначению Микросателлитов и Полиморфных Тандемных Повторов (VNTRs) MICROSAT в Будапеште в 2006 году, а также на Международной Летней Школе и Симпозиуме по Эволюционной Геномике в Берлине в 2006 году.

Структура и объем диссертационного исследования.

Диссертационное исследование состоит из Введения, Обзора Литературы, четырех глав, Заключения, Приложений и библиографического списка. Глава 1 основной части (Результаты и Обсужедение) посвящена подробному описанию построения статистической модели для оценки статистической значимости наблюдаемых периодических структур, используя вероятностные формулы (полученные с помощью производящих функций в рамках теории элементарных языков развитой в INRIA), либо с помощью средств комбинаторной алгебры и формулировке статистических критериев,

Заключение Диссертация по теме "Биофизика", Боева, Валентина Анатольевна

ЗАКЛЮЧЕНИЕ

В результате диссертационного исследования были достигнуты следующие результаты:

1) Разработка алгоритма поиска сильно вырожденных тандемных повторов без делеций и вставок.

2) Получение формул для оценки статистической значимости сильно вырожденных тандемных повторов без делеций и вставок с учетом их самоперекрывающейся структуры.

3) Использование разработанного алгоритма для выявления новых объектов, обладающих выраженной регулярной структурой.

4) Выявление характерных паттернов распределения тандемных повторов в зависимости от длин периодов для хромосом различных геномов эукариот, включая геном человека.

5) Выделение семейств локальных и дисперсных микро- и минисателлитов, характерных для той или иной хромосомы, и их анализ с учетом существующих аннотаций.

6) Выявление различий в распределении тандемных повторов в различных функциональных областях геномов: регуляторных, кодирующих, спейсерных, межгенных областях, гетерохроматине, 5'-и 3'- нетранслируемых областях.

ТАБЛИЦЫ И ИЛЛЮСТРАЦИИ

700000

600000 ь- без фильтрации SSV >3 К—SSV >5 >—SSV >7 I—SSV >9 ■—SSV >11 ■—SSV >13

500000 g 300000

200000

100000 о, 400000 а: О

2 3 4 5 б 7 в 9 10 11 12 13 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 11 42 43 44 <15 48 47 46 -<9 50 S1 52 53 Я 55 56 57 53 59 60 61 62 КЗ 64 SS 66 67 69 69 70 71 длина периода

Рисунок 2. Суммарное покрытие тандемными повторами с различной длиной периода хромосомы 22 (49554710 п.н.) генома человека (Пая UCSC версия, [93]). Фильтрация на основе различной статистической значимости Prs (SSV = -log10 Prs).

400000

350000

X г 300000 ф

S н 250000

J о.

ЬЙ о г 200000 ф о

X п 150000 га

5

100000 о

50000 Все повторы, найденные TandemSWAN (SSV >15, С = 3) ■ Из них, замаскированные TRF/RepeatMasker

П ГЦ

25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70

Длина периода

Рисунок 3. Покрытие 22-ой хромосомы генома человека тандемными повторами, найденными программами TandemSWAN и TRF/RepeatMasker.

Библиография Диссертация по биологии, кандидата физико-математических наук, Боева, Валентина Анатольевна, Москва

1. Subramanian, S., V.M. Madgula, G. Ranjan, R.K. Mishra, M.W. Pandit, C.S. Kumar, and L. Singh, Triplet repeats in human genome: distribution and their association with genes and other genomic regions. Bioinformatics, 2003.19(5): p. 549-552.

2. O'Dushlaine, C.T., R.J. Edwards, S.D. Park, and D.C. Shields, Tandem repeat copy- variation in protein-coding regions of human genes. Genome Biology, 2005. 6(8): p. R69.

3. Ellegren, H., Microsatellites: simple sequences with complex evolution. Nature Genetics, 2004. 5: p. 5435-445.

4. Li, Y.C., A.B. Korol, T. Fahima, and E. Nevo, Microsatellites within genes: structure, function, and evolution. Mol Biol Evol., 2004. 21(6): p. 991-1007.

5. Li, Y.C., A.B. Korol, T. Fahima, A. Beiles, and E. Nevo, Microsatellites: genomic distribution, putative functions and mutational mechanisms: a review. Mol Ecol., 2002.11(12): p. 2453-2465.

6. Gorbunova, V., Seluanov, A., Mittelman, D., Wilson, J.H., Genome-wide demethylation destabilizes CTG-CAG trinucleotide repeats in mammalian cells. Human Molecular Genetics, 2004.13(23): p. 2979-2989.

7. Dieringer, D. and C. Schlotterer, Two distinct modes of microsatellite mutation processes: evidence from the complete genomic sequences of nine species. Genome Res, 2003.13(10): p. 2242-51.

8. Toth, G., Z. Gaspari, and J. Jurka, Microsatellites in different eukaryotic genomes: survey and analysis. Genome Res, 2000.10(7): p. 967-81.

9. Katti, M.V., P.K. Ranjekar, and V.S. Gupta, Differential Distribution of Simple Sequence Repeats in Eukaryotic Genome Sequences. Mol. Biol. Evol., 2001.18(7): p. pp.1161-1167.

10. Ross, C.L., К.A. Dyer, Т. Erez, S.J. Miller, J. Jaenike, and T.A. Markow, Rapid divergence of microsatellite abundance among species of Drosophila. Mol Biol Evol, 2003. 20(7): p. 1143-57.

11. Webster, M.T., N.G. Smith, and H. Ellegren, Microsatellite evolution inferredfrom human-chimpanzee genomic sequence alignments. Proc Natl Acad Sci USA, 2002. 99(13): p. 8748-53.

12. Andres, A.M., M. Soldevila, O. Lao, V. Volpini, N. Saitou, H.T. Jacobs, I. Hayasaka, F. Calafell, and J. Bertranpetit, Comparative genetics of functional trinucleotide tandem repeats in humans and apes. J Mol Evol,2004. 59(3): p. 329-39.

13. Clark R.M., B.S.S., Miyahara M., Dalgliesh G.L., Bidichandani S.I., Expansion of GAA trinucleotide repeats in mammals. Genomics, 2006. 87: p. 57-67.

14. Majewski, J. and J. Ott, Distribution and characterization of regulatory elements in the human genome. Genome Res, 2002.12(12): p. 1827-36.

15. Han, K., G. Yeo, P. An, C.B. Burge, and P.J. Grabowski, Combinatorial Code for Splicing Silencing: UAGG and GGGG Motifs. PLOS Biology,2005. 3(5): p. 0843-0860.

16. Li Y.-C., A.B.K., T. Fahima, E. Nevo, Microsatellites Within Genes: Structure, Function, and Evolution. Molecular Biology and Evolution, 2004.21(6): p. pp.991-1007.

17. Sinha, S. and E.D. Siggia, Sequence turnover and tandem repeats in cis-regulatory modules in drosophila. Mol Biol Evol, 2005. 22(4): p. 874-85.

18. Spinelli, G., Heterochromatin and complexity: a theoretical approach. Nonlinear Dynamics Psychol Life Sci, 2003. 7(4): p. 329-61.

19. Morgante M., H.M., Powell W., Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes. Nature genetics,2002.30: p. 194-200.

20. Xu, G., Goodrige, A.G., A CT repeat in the promoter of the chicken malic enzyme gene is essential for function at an alternative transcription start site. Arch. Biochem Biophys., 1998. 358(1): p. 83-91.

21. Lu Q, T.J., Granok H, Swede MJ, Xu J, Elgin SC., The capacity to form H-DNA cannot substitute for GAGA factor binding to a (CT)n*(GA)n regulatory site. NAR, 2003. 31(10): p. 2483-94.

22. Raghu G., T.S., Anant S., Subramanian K.N., George D.L., Mirkin S.M., Transcriptional activity of the homopurine-homopyrimidine repeat of the c-Ki-ras promoter is independent of its H-forming potential. NAR, 1994. 22(16): p. 3271-3279.

23. Stallings R.L., F.A.F., Nelson D., Torney D.C., Hildebrand C.E., Moyzis R.K., Evolution and distribution of (GT)n repetitive sequences in mammalian genomes. Genomics, 1991.10(3): p. 807-15.

24. Wilkins, R.C. and J.T. Lis, GAGA factor binding to DNA via a single trinucleotide sequence element. Nucleic Acids Res, 1998. 26(11): p. 2672

25. Schwendemann, A. and M. Lehmann, Pipsqueak and GAGA factor act in concert as partners at homeotic and many other loci. Proc Natl Acad Sci U S A, 2002. 99(20): p. 12883-8.

26. Lehmann, M., Anything else but GAGA: a nonhistone protein complex reshapes chromatin structure. Trends Genet, 2004. 20(1): p. 15-22.

27. Nakamura, Y., Koyama, K., Matsushima, M., VNTR (variable number of tandem repeat) sequences as transcriptional, translational, or functional regulators. J. Hum. Genet., 1998. 43: p. 149-152.

28. Gebhardt, F., K.S. Zanker, and B. Brandt, Modulation of epidermal growth factor receptor gene transcription by a polymorphic dinucleotide repeat in intron 1. J Biol Chem, 1999. 274(19): p. 13176-80.

29. Chamberlain N.L., D.E.D., Miesfeld R.L., The length and location of CAG trinucleotide repeats in the androgen receptor N-terminal domain affect transactivation function. NAR, 1994. 22(15): p. 3181-3186.

30. Okladnova, O., Y.V. Syagailo, M. Tranitz, G. Stober, P. Riederer, R. Mossner, and K.-P. Lesch, A Promoter-Associated Polymorphic Repeat Modulates PAX-6 Expression in Human Brain. Biochem. and Biophys. Res. Communications, 1998. 248: p. 402-405.

31. Vafiadis P., B.S.T., Tedd J.A., Nadeau J., Grabs R., Goodyer C.G., Wickramasinghe S., Colle E., Polychronakos C., Insulin expression in human thymus is modulated by INS VNTR alleles at the IDDM2 locus. Nat.Genet., 1997.15(3).

32. Streelman, J.T. and T.D. Kocher, Microsatellite variation associated with prolactin expression and growth of salt-challenged tilapia. Physiol Genomics, 2002. 9(1): p. 1-4.

33. Akai, J., A. Kimura, R. I. Hata., Transcriptional regulation of the human type I collagen alpha2 (COL 1A 2) gene by the combination of two dinucleotide repeats. Gene, 1999. 239: p. pp.65-73.

34. Ranum L.P., D.J.W., Dominantly inherited, non-coding microsatellite expansion disorders. Car Opin Genet Dev., 2002.12(3).

35. Liquori C.L., R.K., Moseley M.L., Jacobsen J.F., Kress W., Naylor S.L., Day J.W., Ranum L.P.W., Myotonic Dystrophy Type 2 Caused by a CCTG Expansion in Intron 1 ofZNF9. Science, 2001. 293(5531): p. 864 867.

36. Saveliev, A., C. Everett, T. Sharpe, Z. Webster, and R. Festenstein, DNA triplet repeats mediate heterochromatin-protein-1 -sensitive variegated gene silencing. Nature, 2003. 422(6934): p. 909-13.

37. Pearson, C.E. and R.R. Sinden, Alternative structures in duplex DNA formed within the trinucleotide repeats of the myotonic dystrophy and fragileXloci. Biochemistry, 1996. 35(15): p. 5041-53.

38. Sinden, R.R., V.N. Potaman, E.A. Oussatcheva, C.E. Pearson, Y.L. Lyubchenko, and L.S. Shlyakhtenko, Triplet repeats DNA structures and human genetic diseass: dinamic mutations from dynamic DNA. J.Biosci (Suppl.l), 2002. 27: p. 53-65.

39. Catasti P., C.X., Mariappan S.V., Bradbury E.M., Gupta G., DNA repeats in the human genome. Genetica, 1999.106(1-2): p. 15-36.

40. Pearson, C.E., A. Ewel, S. Acharya, R.A. Fishel, and R.R. Sinden, Human MSH2 binds to trinucleotide repeat DNA structures associated with neurodegenerative diseases. Human Molecular Genetics, 1997. 6(7): p. 1117-1123.

41. Aharoni, A., N. Baran, and H. Manor, Characterization of a multisubunit human protein which selectively binds single stranded d(GA)nand d(GT)nsequence repeats in DNA. NAR, 1993. 21(22).

42. Sharma, V.K., S.K. Brahmachari, and S. Ramachandran, 3(TG/CA)n repeats in human gene families: abundance and selective patterns of distribution according to function and gene length. BMC Genomics, 2005. 6(83).

43. Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CJJG repeat binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids Res., 1999. 27(22): p. 4517-4525.

44. Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CUG repeat binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids Research, 2005. 27(22): p. 4517-4525.

45. Jackson, R.J., Alternative mechanisms of initiatiating translation of mammalian mRNAs. Biochemical Society transaction, 2005. 3(6): p. 12311241.

46. Yamada, M., S. Tsuji, and H. Takahashi, Involvement oflysosomes in the pathogenesis of CAG repeat diseases. Ann Neurol, 2002. 52(4): p. 498503.

47. Galvao, R., L. Mendes-Soares, J. Camara, I. Jaco, and M. Carmo-Fonseca, Triplet repeats, RNA secondary structure and toxic gain-offunction models for pathogenesis. Brain Res Bull, 2001. 56(3-4): p. 191-201.

48. Duval, A., S. Rolland, E. Tubacher, H. Bui, G. Thomas, and R. Hamelin, The Human T-Cell Transcription Factor-4 Gene: Structure, Extensive Characterization of Alternative Splicings, and Mutational Analysis in

49. Colorectal Cancer Cell Lines. Cancer Research, 2000. 60: p. 3872-3879.

50. Riley, D.E. and J.N. Krieger, Transcribed short tandem repeats occur in couples with strongly preferred registers. Biochem Biophys Res Commun, 2003. 305(2): p. 257-65.

51. Riley, D.E. and J.N. Krieger, Diverse eukaryotic transcripts suggest short tandem repeats have cellular functions. Biochem Biophys Res Commun, 2002.298(4): p. 581-6.

52. Hefferon, T.W., J.D. Groman, C.E. Yurk, and G.R. Cutting, A variable dinucleotide repeat in the CFTR gene contributes to phenotype diversity by forming RNA secondary structures that alter splicing. Proc Natl Acad Sci USA, 2004.101(10): p. 3504-9.

53. Hui, J., G. Reither, and A. Bindereif, Novel functional role of CA repeats andhnRNPLin RNA stability. Rna, 2003. 9(8): p. 931-6.

54. Gabellini, N., A polymorphic GT repeat from the human cardiac Na+Ca2+ exchanger intron 2 activates splicing. Eur J Biochem, 2001. 268(4): p. 1076-83.

55. Shelley, C.S. and F.E. Baralle, Deletion analysis of a unique 3' splice site indicates that alternating guanine and thymine residues represent an efficient splicing signal. Nucleic Acids Res, 1987.15(9): p. 3787-99.

56. Krontiris, T.G., B. Devlin, D.D. Karp, N.J. Robert, and N. Risch, An association between the risk of cancer and mutations in the HRAS1 minisatellite locus. N Engl J Med, 1993. 329(8): p. 517-23.

57. Kashi, Y. and D.G. King, Simple sequence repeats as advantageous mutators in evolution. Trends in Genetics, 2006. 22(5): p. 253-259.

58. Sawyer, L.A., J.M. Hennessy, A.A. Peixoto, E. Rosato, H. Parkinson, R. Costa, and C.P. Kyriacou, Natural Variation in a Drosophila Clock Gene and Temperature Compensation. Science, 1997. 278(5346): p. 2117 -2120.

59. Lim, M.M., Z. Wang, D.E. Olazabal, X. Ren, E.P. Terwillinger, and L.J. Young, Enchancedpartner prefrence in a promiscous species by manipulating the expression of a single gene. Nature, 2004. 429(17): p. 754-757.

60. Hammock, E.A.D. and L.J. Young, Microsatellite Instability Generates Diversity in Brain andSociobehavioral Traits. Science, 2005. 308(5728): p. 1630- 1634.

61. Hammock, E.A.D. and L.J. Young, Functional Microsatellite Polymorphism Associated with Divergent Social Structure in Vole Species.

62. Mol. Biol. Evol., 2004. 21(6): p. 1057-1063.

63. Fondon, J.W. and H.R. Garner, Molecular origins of rapid and continuous morphological evolution. PNAS USA, 2004.101(52): p. 18058-18063.

64. Kashi, Y. and D.G. King, Simple sequence repeats as advantageous mutators in evolution. Trends Genet, 2006. 22(5): p. 253-9.

65. Makeev, V.J., A.P. Lifanov, A.G. Nazina, and D.A. Papatsenko, Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res, 2003.31(20): p. 6016-26.

66. Trifonov, E.N., 3-, 10.5-, 200- and 400-baseperiodicitiesin genome sequences. Physica A, 1998. 249: p. 511-516.

67. Ioshikhes, I., E.N. Trifonov, and M.Q. Zhang, Periodical distribution of transcription factor sites in promoter regions and connection with chromatin structure. PNAS USA, 1999. 96: p. 2891-2895.

68. Rice, P., I. Longden, and A. Bleasby, EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet, 2000.16(6): p. 276-7.

69. Smit, A.F.A., R. Hubley, and P. Green, Repeat Masker Ореп-З.О, 19962004.

70. Landau, G.M., J.P. Schmidt, and D. Sokol, An algorithm for approximate tandem repeats. J Comput Biol, 2001. 8(1): p. 1-18.

71. Hamming, R.W., Error detecting and error correcting codes. Bell System Tech. J., 1950. 29: p. 147-160.

72. Levenshtein, V.I., Binary codes capable of correcting spurious insertions and deletions of ones. Russian Problemy Peredachi Irzfbrmatsii, 1965.1: p. 12-25.

73. Benson, G. and M.S. Waterman, A methodfor fast database search for all k-nucleotide repeats. Nucleic Acids Res, 1994. 22(22): p. 4828-36.

74. Sagot, M.-F. and E.W. Myers. Identifying satellites in nucleic acid sequences, in The 2nd Annual International Conference on Computational Molecular Biology (RECOMB 98). 1998: ACM Press.

75. Benson, G., Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Res., 1999. 27: p. 573-578.

76. Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman, Basic local alignment search tool. J Mol Biol, 1990. 215(3): p. 403-10.

77. Makeev, V.J. and V.G. Tumanyan, Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci, 1996.12(1): p. 49-54.

78. Chaley, M.B., E.V. Korotkov, and K.G. Skryabin, Method revealing latent periodicity of the nucleotide sequences modified for a case of small samples. DNA Res, 1999. 6(3): p. 153-63.

79. Chechetkin, V.R. and V.V. Lobzin, Nucleosome units and hidden periodicities in DNA sequences. J Biomol Struct Dyn, 1998.15(5): p. 93747.

80. Hauth, A.M. and D.A. Joseph, Beyond tandem repeats: complex pattern structures and distant regions of similarity. Bioinformatics, 2002.18 Suppl 1: p. S31-7.

81. Castelo, A.T., W. Martins, and G.R. Gao, TROLL-tandem repeat occurrence locator. Bioinformatics, 2002.18(4): p. 634-6.

82. Aho, A.V. and M.J. Corasick, Efficient string matching: an aid to bibliographic search. Communications of the ACM, 1975.18(6): p. 333

83. Kolpakov, R., G. Bana, and G. Kucherov, mreps: efficient andflexible detection of tandem repeats in DNA. Nucleic Acids Res., 2003. 31: p. 3672-3678.

84. Laboratory, L.A.N., Tandyman, unpublished.

85. Abajian, C., Sputnik. 1994.

86. Schlotterer, C., Evolutionary dynamics of microsatellite DNA. Chromosoma, 2000.109(6): p. 365-71.

87. Regnier, M., A unified approach to word occurrences probabilities. Discrete Applied Mathematics, 2000.104(1): p. 259-280.

88. Boeva, V., J. Clement, M. Regnier, and M. Vandenbogaert. Assessing the Significance of Sets of Words, in Combinatorial Pattern Matching (CPM) 2005. 2005. Jeju Island, Korea: Published online in Lecture Notes in Computer Science, Springer Verlag.

89. Schug, M.D., C.M. Hutter, K.A. Wetterstrand, M.S. Gaudette, T.F. Mackay, and C.F. Aquadro, The mutation rates of di-, tri- and tetranucleotide repeats in Drosophila melanogaster. Mol Biol Evol, 1998. 15(12): p. 1751-60.

90. Boeva, V., M. Regnier, D. Papatsenko, and V. Makeev, Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006. 22(6): p. 676-684.

91. Batzer, M.A. and P.L. Deininger, Alu repeats and human genomicdiversity. Nat Rev Genet, 2002.3(5): p. 370-9.

92. Lander, E.S., et al., Initial sequencing and analysis of the human genome. Nature, 2001. 409(6822): p. 860-921.

93. Nagai, K., Y. Nakaseko, K. Nasmyth, and D. Rhodes, Zinc-finger motifs expressed in E. coli andfolded in vitro direct specific binding to DNA. Nature, 1988.332(6161): p. 284-6.

94. Chavrier, P., P. Lemaire, 0. Revelant, R. Bravo, and P. Charnay, Characterization of a mouse multigene family that encodes zinc finger structures. Mol Cell Biol, 1988. 8(3): p. 1319-26.

95. Лагутин, М.Б., Наглядная математическая статистика. Vol. Книга 2. 2003, Москва: ООО "Фирма "П-центр".

96. Боровков, А.А., Математическая статитика. Наука, 1984.

97. Manuelidis, L. and J.C. Wu, Homology between human and simian repeated DNA. Nature, 1978. 276: p. 92-94.

98. Rudd, M.K., G.A. Wray, and H.F. Willard, The evolutionary dynamics of alpha-satellite. Genome Res, 2006.16(1): p. 88-96.

99. Kazakov, A.E., V.A. Shepelev, I.G. Tumeneva, A.A. Alexandrov, Y.B. Yurov, and I. A. Alexandrov, Interspersed repeats are found predominantly in the "old" alpha-satellite families. Genomics, 2003. 82: p. 619-627.

100. Alexandrov, I., A. Kazakov, I. Tumeneva, V. Shepelev, and Y. Yurov, Alpha-Satellite DNA of primates: Old and new families. Chromosoma, 2001.110: p. 253-266.

101. Rudd, M.K. and H.F. Willard, Analysis of the centromeric regions of the human genome assembly. Trends Genet., 2004. 20: p. 529-533.

102. Yu, X., X. Zhu, W. Pi, J. Ling, L. Ко, Y. Takeda, and D. Tuan, The long terminal repeat (LTR) ofERV-9 human endogenous retrovirus binds to NF-Y in the assembly of an active LTR enhancer complex NF

103. Y/MZF1/GA TA-2. J Biol Chem, 2005. 280(42): p. 35184-94.

104. Cardone, M.F., L. Ballarati, M. Ventura, M. Rocchi, A. Marozzi, E. Ginelli, and R. Meneveri, Evolution of beta satellite DNA sequences: evidence for duplication-mediated repeat amplification and spreading. Mol Biol Evol, 2004. 21(9): p. 1792-9.

105. Gao, Y.G., H. Robinson, R. Sanishvili, A. Joachimiak, and A.H. Wang, Structure and recognition of sheared tandem GxA base pairs associated with human centromere DNA sequence at atomic resolution. Biochemistry, 1999.38(50): p. 16452-60.

106. Birney, E., et al., Ensembl 2006. Nucleic Acids Res, 2006. 34(Database issue): p. D556-61.

107. Grumbling, G., V. Strelets, and T.F. Consortium, FlyBase: anatomical data, images and queries. NAR, 2006. 34: p. D484-D488.

108. Papatsenko, D.A., V.J. Makeev, A.P. Lifanov, M. Regnier, A.G. Nazina, and C. Desplan, Extraction offunctional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res, 2002.12(3): p. 470-81.