Бесплатный автореферат и диссертация по биологии на тему
Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах
ВАК РФ 03.01.02, Биофизика

Автореферат диссертации по теме "Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах"

На правах рукописи

Пятков Максим Иванович

Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах

Специальность 03.01.02 - биофизика

Автореферат диссертации на соискание учёной степени кандидата физико-математических наук

005058846

Пущино - 2013

1 6 МАЯ Ш

005058846

Работа выполнена в Лаборатории обработки данных Федерального государственного бюджетного учреждения науки Института математических проблем биологии Российской академии наук.

Научный руководитель: кандидат физико-математических наук, доцент

Панкратов Антон Николаевич

Официальные оппоненты: доктор физико-математических наук

Смолянинов Владимир Владимирович (зав. лаб. биофизики внутриклеточной регуляции ИТЭБ РАН, г. Пущино) кандидат биологических наук, доцент Чалей Мария Борисовна (старший научный сотрудник Лаборатории биоинформатики ИМПБ РАН, г. Пущино)

Ведущая организация: Федеральное государственное бюджетное учреждение

науки Институт молекулярной биологии им. В. А. Энгельгардга Российской академии наук

Защита состоится « » 2013 г. в ч. ¿0 мин. на заседании сове-

та Д 002.093.01 по защите диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук при Федеральном государственном бюджетном учреждении науки Институте теоретической и экспериментальной биофизики Российской академии наук по адресу: 142290, Московская область, г. Пущипо, ул. Институтская, д. 3.

С диссертацией можно ознакомиться в Центральной библиотеке ПНЦ РАН по адресу: 142290, Московская обл., г. Пущино, ул. Институтская, д. 3.

Автореферат разослан 2013 года.

Ученый секретарь диссертационного совета Д002.093.01

кандидат физико-математических наук

Ланина Н.Ф.

Общая характеристика работы

Актуальность темы. Первые годы двадцать первого столетия ознаменовали начало новой эры в понимании живых систем - были секвенированы геномы человека и основных модельных эукариотических организмов. Накопленный к настоящему времени и постоянно увеличивающийся объем генетической информации открывает возможности для проведения полномасштабных исследований на уровне целых геномов, однако при этом возникает необходимость разработки новых алгоритмов, способных эффективно и быстро обрабатывать большие объемы генетической информации. Одной из частных задач геномики является поиск повторяющихся элементов, изучение их структуры и распределения в геномах. Важность поиска повторяющихся элементов обусловлена биологической ролью данных структур в функционировании организма. Повторы могут быть мобильными элементами, способными вырезаться или копироваться в одном участке ДНК и встраиваться в другом, что в случаях попадания в регу-ляторпыс или кодирующие области может приводить к потере функции генов. Взаимодействие между повторяющимися элементами может вызывать различные хромосомные перестройки, такие как дупликации, инверсии, транслокации и т. д. Подобные хромосомные аберрации в кодирующих областях генома могут приводить к развитию генетических заболеваний. Изучение повторяющихся структур также важно с точки зрения их возможной роли в укладке и реорганизации ДНК. Стоит отметить тот факт, что повторы являются удобными генетическими маркерами, которые широко используются в прикладных и фундаментальных исследованиях. Например, короткие тандемные повторы применяются для определения родства и идентификации индивидуальных генотипов в криминалистике. Примером фундаментальных исследовашш может служить использование крупных повторяющихся структур генома при решении эволюционных и филогенетических задач - определении родства групп организмов на генном уровне.

Сложность определения повторяющихся фрагментов нуклеотидных последовательностей тесно связана с мутационными процессами, происходящими в организме, благодаря которым происходят вставки, замены и делеции отдельных нуклеотидов, а иногда и целых участков ДНК. Большинство методов поиска повторяющихся последовательностей основано на алгоритмах, которые работают с нуклеотидной последовательностью как со строкой символов. В этом случае учет точечных мутаций является вычислительно сложной операцией. Для решения этой проблемы предлагаются различные подходы, при этом некоторые из них базируются на спектральных методах, где в основу положено быстрое преобразование Фурье (БПФ). Помимо того, что спектральные подходы, осно-

ванные на БПФ, только отчасти решают проблему учета мутаций, они также ограничены в плане масштабируемости вследствие однозначного соответствия получаемого спектра пуклеотидной последовательности. Данные подходы позволяют исследовать нуклеотидные последовательности длиной порядка до 104 нуклеотидных пар (н. п.). Однако для решения отдельных задач в области эволюции и структурной геномики требуется работа с протяженными последовательностями на различных масштабах, включая хромосомы и полные геномы (порядка 109 н. п.). При этом с накоплением информации о новых организмах все большую роль будет приобретать скорость обработки генетических текстов. Таким образом, в настоящее время является актуальной разработка программных инструментов, позволяющих быстро сравнивать протяженные нуклеотидные последовательности, выделяя при сравнении наиболее значимые участки.

В настоящей работе предлагается использовать аппроксимирующие возможности рядов Фурье посредством анализа функций, получаемых из нуклео-тидной последовательности, таких как вС-состав. Это может обеспечить анализ нуклеотндных последовательностей на разных масштабах.

Объект, предмет и метод исследования. Объектом исследования являются протяженные (от 1000 н. п.) повторяющиеся структуры в ДНК, организация которых может иметь как диспергировашшй, так и тандемный характер. Предметом исследования является разработка математического подхода к решению задачи быстрого поиска крупных повторяющихся структур в нуклеотидных последовательностях, сопоставимых по размеру с хромосомами или целыми геномами. Для решения данной задачи применялись методы из области обработки сигналов, основанные на приближении непрерывных функций с помощью рядов Фурье по ортогональным базисным функциям и спектральных преобразований в пространстве коэффициентов разложения.

Целью данной работы является разработка спектрально-аналитического метода поиска протяженных повторяющихся нуклеотидных последовательностей в геномах.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Разработать математический аппарат для поиска протяженных повторяющихся структур и получить аналитические соотношения для оценки различных типов повторов в пространстве коэффициентов разложения.

2. Разработать алгоритмы вычисления и сравнения векторов коэффициентов разложения, базирующиеся на параллельности и векторизации вычислений.

3. Разработать программное обеспечение, позволяющее производить поиск и анализ повторяющихся нуклеотидных последовательностей в геномах.

4

4. Проанализировать модельные организмы с целью поиска ранее неизвестных повторяющихся последовательностей.

Научная новизна работы состоит в том, что в качестве функционального аналога нуклеотидной последовательности впервые использовались две стати- . стические кривые СС-.СА-содержаипя, позволяющие однозначно восстановить нуклеотидную последовательность. Впервые в задаче поиска повторяющихся последовательностей были применены аппроксимирующие возможности ортогональных многочленов, использование которых позволило производить изучение протяженных нуклеотидных последовательностей на разных масштабах.

Теоретическая и практическая значимость диссертационной работы определяется следующими положениями:

1. Предложенный метод позволяет быстро исследовать протяженные нуклео-тидные последовательности на наличие крупных диспергированных и тан-демных повторов. Исследования подобного рода позволят дополнить уже существующие работы, связанные с картированием генома и классификацией организмов на генном уровне.

2. Аналитические соотношения, полученные в ходе диссертационной работы, могут быть использованы в работах, посвященных теории приближения функций классическими полиномиальными базисами.

3. Реализованы быстрые алгоритмы вычисления коэффициентов разложения для ряда классических ортогональных полипомов, которые могут быть использованы в других областях науки, например, в распознавании образов.

4. Разработано методическое пособие, в котором показано, как можно эффективно оптимизировать некоторые алгоритмы спектрального анализа с применением программных библиотек для векторизации вычислений.

5. Разработана программа БВАКБ для интерактивной обработки нуклеотидных последовательностей с целью выявления диспергированных и тандем-ных последовательностей. Программа является свободно распространяемой и доступна по адресу http://mpyatkov.github.com/sbars/.

Основные положения, выносимые на защиту:

1. Разработан метод поиска протяженных повторяющихся структур в нуклеотидных последовательностях, основанный на спектральпом анализе пары кривых ОС-,ОА-содержания на разных масштабах и позволяющем выявлять различные типы повторяющихся структур (прямых, обратных, комплементарных, инвертированных).

2. Предложены и реализованы алгоритмы, которые позволяют максимально использовать параллельпость и векторизацию современных процессорных архитектур.

3. На основе метода реализована процедура автоматического распознавания и поиска мегасателлитных повторов. На основе этой процедуры в хромосоме 17 кролика (Orycíolagus cuniculus) выявлен ранее неизвестный мегасател-литный повтор с длиной повторяющего фрагмента 2623 нуклеотида.

Апробация работы. Результаты диссертационной работы были доложены на следующих конференциях: 13, 14, 15 Всероссийские конференции "Математические методы распознавания образов (ММРО)" (Зеленогорск, 2007; Суздаль, 2009; Петрозаводск, 2011); на 9-ой международной конференции "Распознавание образов и анализ изображений (РОАИ)" (Нижний Новгород, 2008); на И, III, IV Международных конференциях "Математическая биология и биоинформатика (1СМВВ)" (Пущино, 2008, 2010, 2012); на 8 и 9 международных конференциях "Интеллектуализация обработки информации (ИОИ)" (Пафос, 2010; Будва, 2012); на 12, 14, 16 Международных пущинских школах-конференциях молодых ученых "Биология наука XXI века" (Пущино, 2008, 2010, 2012); на 12 и 13 Международных суперкомпьютерных конференциях "Научный сервис в сети интернет" (Новороссийск, 2010, 2011), а также на IV Летней школе по научным вычислениям (Москва, 2009). Работа получила второе место в межлабораторном конкурсе "Intel Software - продемонстрируй красоту решения" (Москва, 2009), является победителем конкурса "Intel Manycore Testing Lab" (2010) и победителем трех этапов конкурса "Эффективное использование GPU-ускорителей при решении больших задач" проводимого компанией Т-Платформы (Москва, 2011).

Диссертационная работа была выполнена при поддержке грантов №07-01-00564-а, №08-01-12030-офи, №08-07-00353-а, №10-01-00609-а, №11-07-00519-а, №11-07-00716-а.

Личный вклад. Представленные в диссертационной работе результаты получены лично соискателем.

Публикации. По теме диссертации опубликовано 27 научных работ, в том числе: 2 в списках журналов рекомендованных ВАК; 1 методическое пособие; 2 электронные публикации; 22 в сборниках тезисов конференций.

Объем и структура работы. Диссертация изложена на 94 страницах и состоит из введения, четырех глав, заключения и списка литературы. Список литературы состоит из 94 наименований. Работа содержит 24 рисунка, 6 таблиц.

Содержание работы

Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, формулируется цель, ставятся задачи, изложена научная новизна и практическая значимость.

Первая глава посвящена обзору научной литературы по повторяющимся структурам в нуклеотидных последовательностях. Приводится подробная классификация повторов и известные примеры их влияния на организм. Формулируется задача поиска повторов и рассматриваются основные сложности, возникающие в процессе вычислений. Приведена классификация наиболее популярных алгоритмов, подходов и программных реализаций решения задачи поиска тандемных и диспергированных повторяющихся структур. Отдельно рассматриваются спектральные методы в хронологическом порядке их применения в задаче поиска повторяющихся структур в генетических текстах. В обзоре продемонстрирована актуальность выбранной темы исследования и показана связь проанализированных работ с предметом исследования диссертации.

Во второй главе выдвигается основной постулат, суть которого заключается в следующем: преимущество непрерывных методов проявляется в тех случаях, когда мы сравниваем не одиночные нуклеотиды, а целые блоки нуклеоти-дов, где каждый блок можно представить в виде нешторой функции дискретного аргумента. Последующее сравнение функций можно производить спектральными методами, применяя разложения по ортогональным базисам и сравнивая коэффициенты разложения.

Рассмотрим общую схему метода, которая включает в себя четыре основных этапа:

1. Представление нуклеотидной последовательности в виде набора функций дискретного аргумента.

2. Преобразование функций, полученных на предыдущем этапе, в спектральное представление.

3. Сравнение спектров коэффициентов разложения.

4. Отображение и анализ результатов сравнения на точечной матрице гомологии.

Для удобства будем называть функции дискретного аргумента, получаемые из нуклеотидной последовательности функциями-аналогами нуклеотидной последовательности.

На первом этапе необходимо преобразовать генетическую последовательность 5 = вхвгвз... в;... из алфавита вг £ А = {А Т, й, С}, где N - ко-

7

личество нуклеотидов в последовательности 5, в числовую функцию. Разобьем алфавит А на два подмножества Аг и Л2, так что /1] и Л2 = А:

I, если Si Ь Л\, О, если Si ф Ai.

1, если Si е А

(1)

В качестве Л| мы можем взять подмножество {С,С}. Если окно длиной И7! двигать с шагом ¿и символьная последовательность перекодируется в числовую функцию-аналог следующим образом:

(["] _ целая часть числа), где fGC - дискретная функция, равная количеству букв алфавита Ai = {G,C} в окне \\\ последовательности S, - является общеизвестной функцией GC-содержания. Параметр di вводится для того, чтобы прореживать последовательность значений функции-аналога. Это необходимо для ускорения вычислений при больших размерах обрабатываемых последовательностей.

Однозначное восстановление из функции-аналога в исходную последовательность произойдет только тогда, когда количество линейно-независимых функций будет равно Iog2 |А|, где |Л| - количество букв алфавита. Таким образом, для алфавита из четырех букв требуется пара линейно-независимых функций-аналогов fGC и fGA.

На следующем этапе полученные функции-аналоги преобразуются в спектральное представление. Для этого принято решение, что функции fac и fGA должны быть разделены на фрагменты для преобразования в коэффициенты разложения по ортогональному базису. Для этого было выбрано окно W2, которое двигается по функциям fcc и fGA с шагом d2, и на каждом шаге фрагмент, попавший в окно, преобразуется в коэффициенты разложения. Вектора коэффициентов разложения для каждой функции сохраняются для дальнейшей оценки близости между ними. На данном этапе возникает вопрос о выборе системы ортогональных полиномов, по которым раскладываются фрагменты функций fGC и fGA. В работе были рассмотрены базисы полиномов Лежандра и тригонометрических полиномов Фурье непрерывного аргумента и Чебышева дискретного аргумента. Каждый из этих базисов был протестирован в данной задаче, и все они оказались пригодными для оценивания интеграла квадрата отклонения фрагментов функций-аналогов. При этом каждый из mix имел свои достоинства и недостатки в рамках алгоритма решения данной задачи. В копечном итоге наиболее рациональным оказалось использование для представления функции в

jdx+Wi-1

N - Wi + 1 d\

(2)

i=jd l

где £ € [0.1] - пороговое значение решающего правила, Ь - количество коэффициентов разложения и

еи,д) = щТ,{ск-пк)\ (11)

Важно отметить инвариантность (11) к масштабу и монотонность возрастания суммы квадратов коэффициентов разложения, что позволяет прервать вычисление суммы квадратов, если пороговое значение е превышено.

Для отображения результатов сравнения векторов коэффициентов разложения создаётся точечная матрица гомологии, однако, в отличие от традиционного подхода, где пересечение строки и столбца соответствует одному нуклеоти-ду, точки на матрице, предлагаемой в настоящей работе, соответствуют результату сравнения векторов коэффициентов разложения. В сравнении с матрицей гомологии единичных нуклеотидов, используемый в настоящей работе подход позволяет избежать следующих проблем:

• Большое потребление памяти для хранения матрицы. Поскольку размер матрицы, основанной на сравнении векторов, не зависит напрямую от размера нуклеотидной последовательности, а в большей степени определяется параметрами метода, это позволяет создавать матрицы низкой размерности для больших нуклеотидных последовательностей.

• В отличие от матрицы нуклеотидной гомологии, матрица гомологии векторов позволяет регулировать уровень шума за счет изменения порогового значения (е) на этапе сравнения векторов коэффициентов разложения.

Протяженные участки сходства, как и в случае с точечной матрицей, отображаются отрезками линий, параллельными (в случае прямых повторов) или перпендикулярными (в случае инвертированных повторов) относительно главной диагонали (рис. 1). Автоматический анализ матрицы позволяет выделить наиболее существенные участки для сравнения.

Для того чтобы повысить качество распознавания, одновременно используются две функции-аналога /сс и /сл, при этом ширина окна \¥2 не меняется. Оценка близости между спектрами коэффициентов разложения происходит по двум функциям-аналогам раздельно, после чего повтор отображается на матрице, если обе пары функций-аналогов, для каждого фрагмента, близки.

тсс,9ас) <е)А тСА,дСА) < £), (12)

где / и д - функции-аналоги сравниваемых последовательностей.

На рис. 1 изображена фильтрация матрицы за счёт добавления дополнительной функции-аналога /ал.

Рис. 1: Точечная матрица гомологии, построенная спектральным методом, а) Оценивание только по кривой ОС-содержания /ес. б) Одновременное оценивание по кривым ОС- и ОА-содержания при тех же параметрах, что и для одной кривой, позволяет существенно

сократить уровень шума.

Наличие двух линейно-независимых функций-аналогов позволяет получить остальные функции путем преобразований. Рассмотрим следующее соотношение, которое можно использовать для оценивания комплементарных последовательностей:

fCT = Wi - faA. (13)

Это соотношение представляет собой симметричное отражение функции-аналога fGA относительно горизонтальной оси, проходящей через 4,-1. Однако для оценивания инвертированных (reverse-complement) повторов требуется еще одно преобразование, смысл которого - "развернуть" функцию-аналог в противоположном направлении относительно вертикальной оси, проходящей через При этом оба преобразования требуется произвести в пространстве коэффициентов разложения. Пользуясь соотношениями (13) и (5), мы можем выразить коэффициенты с£т через коэффициенты с£л следующим образом:

сг _ _ {Ш,..фк)-иСА..фк) = (УГифк) _

* (Фк,Фк) ' (ФьФк) (Фк,Фк) к '

Так как для всех ортогональных базисов, которые мы использовали (Фурье, Че-бышева дискретного аргумента, Лежандра), справедливо:

Т^ТТ = 0- (15)

то для всех коэффициентов, кроме нулевого, будет выполняться равенство:

= ' (16)

Нулевой коэффициент в зависимости от базиса будет принимать значение, согласно выражению (14). Представим У/\ в виде И^ = л/^И^о, тогда для базиса Фурье пулевой коэффициент будет выражаться соотношением:

Г<СТ _

0 (Фо. Фо)

С°А = у/2 ^ - С'о

«Л

(17)

Второе преобразование, связанное с симметричным "разворотом" кривой относительно центра горизонтальной оси и необходимое при решении задачи поиска инвертированных повторов, можно сделать, воспользовавшись тем, что базис (3) состоит из чётных и нечётных функций. Смена знака у нечётных коэффициентов приведет к тому, что кривая будет симметрично отражена. Применяя данное свойство к выражению (16), мы получаем итоговый набор спектральных преобразований, которые при попарном сравнении векторов коэффициентов разложения позволяют оценивать все типы повторов (рис. 2).

[/"•СМгеи _ Ґ'(!.Л І 1-2І - к І ґ'ОЛггл- _ г СЛ

і А СА гєуєг»« І і і

САогідіпа{. ^

— у/21Уі - С§л

1 гСТ - пСЛ (.'-'24+1 ~ "-'М-И

А ■ А. 7

^ І САгєуєгхє ..... сотрІетепЬ

-се

ш

СА : 1 Л

сотр(єтепЬ

Рис. 2: Различные типы преобразований в пространстве коэффициентов разложения позволяют получать функции-аналога, отличающиеся ориентацией относительно друг друга.

Третья глава посвящена алгоритмической и программной реализации метода поиска повторов. Особое внимание уделено алгоритмам вычисления коэффициентов разложения по ортогональным полиномам.

H

а) б)

Рис. 4: Пример тандемного повтора 1МРВ_01] при разных параметрах на точечной матрице, построенной спектральным методом, (а) №'2 = 2500, </2 = 500. (6) Ж2 = 10000, ¿2 = 2500

ст собой полную реализацию алгоритмов, описанных выше. Программа представляет собой интерактивное приложение, основной задачей которого является быстрое построение точечной матрицы гомологии для векторов по заданным параметрам и поиск в ней различных типов повторов. Документация с примерами работы и сама программа для различных операционных систем доступна по адресу: http://mpyatkov.github.com/sbars/

Четвертая глава посвящена апробации и исследованию предлагаемого метода для выявления различных типов повторяющихся структур и сравнению его с уже существующими программными аналогами.

Отображение результатов на точечной матрице гомологии предполагает сравнение с программами, результатом работы которых также является матрица. Было проведено сравнение с программой Gepard2, алгоритм которой основан на суффиксных массивах. Ее отличительной особенностью является возможность построения точечных матриц для последовательностей протяженностью более 30 млн. н. п. В таблице 1 представлены результаты сравнения программной реализации метода предлагаемого в диссертации и программы Gepard. В качестве критерия сравнения использовалось время расчета для одинаковых результирующих матриц, получаемых спектральным методом и программой Gepard.

'Tetuev R.K., NazipovaN.N. Consensus of repeated region of mouse chromosome 6 containing 60 tandem copies of a complex pattern // Repbase Reports. 2010. V. 10, No. 5. P. 776.

2 Krumsiek J., et al. Gepard: a rapid and sensitive tool for creating dotplots on genome scale // Bioinformatics. 2007. V. 23, No. 8. P. 1026-1028.

Таблица 1: Сравнительное время расчета для программной реализации спектрального метода и программы Gepard. Сравнительные расчеты проводились на компьютере с процессором 2GHz, 2Gb RAM.

Длина последовательности (н. п.) Gepard Предлагаемый метод

100000 < 1 с < 1 с

1000000 < 5 с < 3 с

5000000 45 с < 14 с

Human chrom. Y 300 с 27 с

Эффективность спектрального метода в построение крупномасштабных карт обусловлена тем, что сравниваемые вектора коэффициентов разложения, отвечающие за отдельные фрагменты кривой GC-содержания, гораздо более устойчивы к выпадению отдельных нуклеотидов. Это напрямую связано с тем, что методы в основе которых лежит первоначальный поиск точных совпадений фрагментов определенного размера, не могут значительно увеличить размер искомого фрагмента без потери качества поиска, так как вероятность обнаружения точного фрагмента незначительна для неродственных последовательностей. Таким образом, при построении любых по масштабу карт для эвристических методов, подобных тому, что реализован в программе Gepard, требуется трудоемкая процедура выявления и сцепления коротких участков сравниваемых последовательностей. Спектральный метод основан на других принципах, и переход от масштаба к масштабу происходит путем изменения параметров. К примеру, для того, чтобы рассмотреть последовательность с более высоким разрешением, требуется пропорционально уменьшить параметры, отвечающие за шаг d2 и размер окна аппроксимации а также и за размер окна по которому были получены функции-аналоги Wi, что приведет к увеличению размера матрицы получаемой спектральным методом и, соответственно, времени расчета.

В результате анализа генома кролика (Oryctolagus cuniculus), помимо уже анонсированных крупных тандемных повторов, был обнаружен ранее неизвестный мегасателлитный повтор, расположенный в 17-ой хромосоме. Длина периода найденного повтора в среднем составляет 2623 нуклеотидов. Данный повтор был зафиксирован в базе данных RepBase3 под именем MSU1 [26]. Анализ структуры повтора показал, что в консенсусную последовательность входит входит 47% нуклеотидов в строго консервативных позициях, а минимальное и максимальное отличие между отдельными копиями равно 4.2% и 22.7% соответ-

чика J. et al. Repbase Update, a database of eukaryotic repetitive elements // Cytogenet Genome Res. 2005. V. 110, No. 1-4. P. 462-467.

Рис. 5: Фрагмент мегасателлитного повтора \fSUl [26]. Показано отличие между соседними повторяющимися фрагментами.

Rattus norvégiens (rat) I i j * t s 7 i « m il и il H и н i' la 1ят x

Ч : N 4

ч ■

. ч .о •

. j •

-------- ■ . .. ; :.:! 1 j

; .:. 1 w

\ X : : ; . J IV

- • i!

. • \ •

. . ■ =; : • :

• \ ! !•

ч ч ! • i

• - • ! '"t

......-. ! V. i

------- - : N j i

! ■ г I^-L_____

■ : j :

.......: --J-- .J.

Г- • ! 1 . : • J "t : ! ••

Рис. 6: Матрица межгеномного сходства, построенная с помощью спектрального метода.

Точками показаны все регионы, содержащие протяженные повторы. Y-хромосома Mus musculus не показана из-за ее малой протяженности относительно выбранного масштаба. Масштаб 1 точка - 4 млн. н. п.

ственно. На рисунке 5 показано несколько соседних повторяющихся фрагментов тандемного повтора МБШ [26], представленных в виде функции-аналога.

17

В конце гаавы показано примените метода для полногеномного сравнения мыши (Mus musculus) и крысы (Rattus norvégiens) (рис. 6). Данные, полученные с помощью спектрального метода, хорошо согласуются с известными районами сшггении, что делает возможным использование метод как в работах, связанных с определением родства между организмами без знания о расположение отдельных генов, так и для выявления крупных геномных перестроек.

Выводы

1. Разработан метод поиска протяженных повторяющихся структур в нуклео-тидных последовательностях, основанный на спектральном анализе пары кривых СС-,ОА-содержания.

2. Получены аналитические соотношения, которые позволяют анализировать различные типы повторяющихся структур (прямых, обратных, комплементарных, инвертированных) путем преобразований над коэффициентами разложения.

3. Предложена методика построения точечных матриц гомологии, позволяющая анализировать нуклеотидные последовательности на разных масштабах.

4. Для классических ортогональных базисов реализованы алгоритмы вычисления и сравнения коэффициентов разложения, которые на многоядерных вычислительных системах позволяют получить ускорение, близкое к линейному.

5. На основе предложенного метода реализована процедура автоматического распознавания и поиска мегасателлитных повторов.

6. В хромосоме 17 кролика (Oryctolagus cuniculus) выявлен ранее неизвестный мегасателлитный повтор с дайной повторяющегося фрагмента 2623 нуклеотида.

Публикации автора по теме диссертации

1. Панкратов А.Н., Поволоцкий А.В., М.И. Пятков. Параллельные алгоритмы спектрального анализа сигналов и их применение для обработки данных. // Математические методы распознавания образов: 13-ая Всероссийская конференция. г. Москва. Сборник докладов. - М: МАКС Пресс. 2007. С. 690691.

2. Поиск и визуализация повторов в геномах на основе спектрального подхода / М.И. Пятков, А.Н. Панкратов, Р.К. Тетуев, Дедус Ф.Ф. // 12-ая Международная пущинская школа-конференция молодых ученых "Биология - наука XXI века", г. Пущипо. Сборник тезисов. 2008. С. 338-339.

3. Обобщенный спектрально-аналитический метод - перспективная вычислительная технология биоинформатики / Ф.Ф. Дедус, Л.И. Куликова, Н.Н. Ма-хортых, С.А. Назипова, М.М. Ольшевец, А.Н. Панкратов, М.И. Пятков, В.Р. Руднев, Р.К. Тетуев // Математическая биология и биоинформатика: П Международная конференция, г. Пущино. Доклады/ Под ред. В.Д.Лахно. -М: МАКС Пресс. 2008. С. 116-117.

4. Спектральный подход для быстрог. поиска повторов в геномах / Ф.Ф. Дедус, Л.И. Куликова, Н.Н. Махортых, С.А. Назипова, М.М. Ольшевец, А.Н. Панкратов, М.И. Пятков, Р.К. Тетуев // Математическая биология и биоинформатика: II Международная конференция, г. Пущино. Доклады/ Под ред. В.Д.Лахно. - М: МАКС Пресс. 2008. С. 133-134.

5. 2D visualization of genetic homology / R Tetuev, F Dedus, L Kulikova, S Makhortykh, N Nazipova, M Olshevetz, A Pankratov, M Pyatkov // Математическая биология и биоинформатика: II Международная конференция, г. Пущино. Доклады/ Под ред. В.Д.Лахно. - М: МАКС Пресс. 2008. С. 121122.

6. Spectral approach for rapid recognition and visualization of repeats in genomes / F. Dedus, L. Kulikova, S. Makhortykh, M. Nazipova, N.N.and Olshevets, A. Pankratov, M. Pyatkov, R. Tetuev // Proceedings of the 9-th Intern. Conf. Pattern Recognition and Image Analysis: New Information Technologies. Nizhni Novgorod. V. 1. 2008. P. 80-81.

7. Создание базы данных и знаний по структурно-функциональным элементам геномов / В.Р. Руднев, М.М. Ольшевец, А.Н. Панкратов, М.И. Пятков, Р.К. Тетуев, Л.И. Куликова, Н.Н. Назипова, С.А. Махортых, Ф.Ф. Дедус // Материалы Пятого Московского международного конгресса, г. Москва. М.: ЗАО «Экспо-биохим-технологии», РХТУ им. Д.И. Менделеева. 2009. С. 414415.

8. Спектральный подход в задаче распознавания и визуализации нечётких повторов в генетических последовательностях / А.Н. Панкратов, М.А. Горчаков, Ф.Ф. Дедус, Н.С. Долотова, Л.И. Куликова, С.А. Махортых, Н.Н. Назипова, Д.А. Новикова, М.М. Ольшевец, М.И. Пятков, В.Р. Руднев, Р.К. Тетуев,

B.В. Филиппов // Математические методы распознавания образов: 14-ая Всероссийская конференция, г. Суздаль. Сборник докладов. - М: МАКС Пресс. 2009. С. 586-588.

9. Спектральная реализация метода наименьших квадратов / Ф.Ф. Дедус,

C.А. Алёшин, А.И. Двойнев, Л.И. Куликова, С.А. Махортых, А.Н. Панкратов, М.И. Пятков, Р.К. Тетуев // Математические методы распознавания образов: 14-ая Всероссийская конференция, г. Суздаль. Сборник докладов. - М: МАКС Пресс. 2009. С. 116-118.

10. Spectral analysis for identification and visualization of repeats in genetic sequences / A. Pankratov, M. Pyatkov, F. Dedus, N. Dolotova, L. Kulikova, S. Makhortykh, N. Nazipova, D. Novikova, M. Olshevets, M. Gorchakov, V. Rud-nev, R. Tetuev, V. Filippov // Pattern Recognition and Image Analysis. 2009. V. 19, No. 4. P. 687-692.

11. Gorchakov M., Pyatkov M., Filippov V. Search of extended inexact repetitions with usage of spectral indexing of sequence // IV Summer school on scientific computing. Moscow. 2009.

12. Пятков М.И. Распараллеливание спектрального алгоритма поиска повторов в геномных последовательностях // Научный сервис в сети Интернет: суперкомпьютерные центры и задачи. Труды Международной суперкомпьютерной конференции, г. Новороссийск. -М.: Изд-во МГУ. 2010. С. 663-666.

13. Пятков М.И., Панкратов А.Н., Тетуев Р.К. Дедус Ф.Ф. Оптимизация спектрального алгоритма распознавания повторяющихся последовательностей в геномах // 14-ая Международная пущинская школа-конференция молодых ученых "Биология - наука XXI века", г. Пущино. Сборник тезисов. 2010. С. 288-289.

14. Pankratov A., Tetuev R., Pyatkov М. Fast Spectral Estimation of Genetic Homology. 2010. URL: http://sofhvare.intel.com/en-us/articles/fast-spectral-estimation-of-genetic-homology.

15. Об оценке осцилляции GC% при поиске тандемных повторов / Р.К. Тетуев, Ф.Ф. Дедус, М.М. Олыпевец, А.Н. Панкратов, М.И. Пятков, Н.Н. На-зипова // Интеллектуализация обработки информации: 8-ая Международная конференция. Республика Кипр, г. Пафос. Сборник докладов. - М.:МАКС Пресс. 2010. С. 483-486.

16. Использование спектрального представления для анализа последовательностей ДНК / Р.К. Тетуев, Ф.Ф. Дедус, М.М. Олыпевец, А.Н. Панкратов,

20

МИ. Пятков, H.H. Назипова // Математическая биология и биоинформатика: Доклады III международной конференции, г. Пущино. Под ред. д.ф.-м.н. В.Д.Лахно. М.:МАКС Пресс. 2010. С. 127-128.

17. Пятков М.И., Панкратов А.Н. О масштабируемости на многоядерных процессорах алгоритма поиска повторов в ДНК // Математическая биология и биоинформатика: Доклады 1П международной конференции, г. Пущино. Под ред. д.ф.-м.н. В.Д.Лахпо. М.:МАКС Пресс. 2010. С. 162-163.

18. Распараллеливание спектрального алгоритма поиска повторов в геномах. / А.Н. Панкратов, М.И. Пятков, С.А. Комаров, М.С. Колесин, H.H. Попова // Научный сервис в сети Интернет: экзафлопсное будущее. Труды Международной супер компьютерной конференции, г. Новороссийск. М.: Издательство МГУ. 2011. С. 304-306.

19. Исследование масштабируемости спектрального алгоритма распознавания повторов в геномах. / А.Н. Панкратов, Р.К. Тетуев, С.А. Комаров, М.С. Колесин, H.H. Попова, М.И. Пятков, Ф.Ф. Дедус // Ломоносовские чтения: Тезисы докладов научной конференции, посвященной 300-летию со дня рождения М.В. Ломоносова, г. Москва. М.: Издательский отдел факультета ВМиК МГУ имени М.В. Ломоносова. 2011. С. 26-27.

20. Панкратов А.Н., Пятков М.И., Тетуев Р.К., Куликова Л.И. Алгоритмы спектрального анализа с использованием библиотек Intel IPP и MKL. Методическое пособие. Москва. 2011. URL: http://intel.cs.msu.ru/sites/intel/files/fxles/tutoria_pankratov.pdf.

21. Панкратов А.Н., Пятков М.И. О спектральном алгоритме распознавания протяженных тандемных повторов в геноме. // Математические методы распознавания образов: Сборник докладов 15-ой Всероссийской конференции, г. Петрозаводск. М.: МАКС Пресс. 2011. С. 525-528.

22. Преимущество оценок подобия фрагментов ДНК с помощью спектрально-аналитического метода. / Ф.Ф. Дедус, Р.К. Тетуев, H.H. Назипова, М.М. Оль-шевец, А.Н. Панкратов, М.И. Пятков // Математические методы распознавания образов ММРО-15: Сборник докладов 15-ой Всероссийской конференции. г. Петрозаводск. М.: МАКС Пресс. 2011. С. 529-531.

23. Пятков М.И., Панкратов А.Н. Быстрый поиск протяженных повторов в геномах // 16-ая Международная путинская школа-конференция молодых ученых "Биология - наука XXI века", г. Пущино. Сборник тезисов. 2012. С. 82.

24. Развитие спектрального подхода для распознавания повторов в геномах и белках / М.И. Пятков, А.Н. Панкратов, М.В. Разумейко, В.Р. Руднев, Р.К. Те-туев, Л.И. Куликова, Ф.Ф. Дедус // Интеллектуализация обработки информации: 9-я международная конференция. Черногория, г. Будва. Сборник докладов. - М.: Торус Пресс. 2012. С. 577-580.

25. Пятков М.И., Панкратов А.Н. Спектральные методы в задаче поиска различных типов повторов в геномах // Математическая биология и биоинформатика: IV Международная конференция, г. Пущино. Доклады/ Под редакцией д.ф.-м.н. В.Д.Лахно. - М.: МАКС-Пресс. 2012. С. 65.

26. Pyatkov M., Filippov V., Pankratov A. Consensus of repeated region of rabbit chromosome 17 containing over 15 huge approximate tandem repeats. // Repbase Reports. 2012. V. 12, No. 3. P. 256.

27. Поиск протяженных повторов в геномах на основе спектрально-аналитического метода / А. Н. Панкратов, М. И. Пятков, Р. К. Тетуев, H. Н. Назипова, Ф. Ф. Дедус // Математическая биология и бионформа-тика. 2012. Т. 7, № 2. С. 476-492.

Подписано в печать:

26.04.2013

Заказ № 8434 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Текст научной работыДиссертация по биологии, кандидата физико-математических наук, Пятков, Максим Иванович, Пущино

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ МАТЕМАТИЧЕСКИХ ПРОБЛЕМ БИОЛОГИИ РОССИЙСКОЙ АКАДЕМИИ НАУК

На правах рукописи

04201356905

ПЯТКОВ МАКСИМ ИВАНОВИЧ

СПЕКТРАЛЬНО-АНАЛИТИЧЕСКИЙ МЕТОД ПОИСКА ПРОТЯЖЕННЫХ ПОВТОРЯЮЩИХСЯ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В

ГЕНОМАХ

Специальность 03.01.02 — «Биофизика»

Диссертация на соискание учёной степени кандидата физико-математических наук

Научный руководитель: к.ф.-м.н, доцент Панкратов А.Н.

Пущино - 2013

Содержание

Введение 4

1 Повторяющиеся структуры в геномах 10

1.1 Классификация структур........................................10

1.1.1 Диспергированные повторы............................11

1.1.2 Тандемные повторы......................................16

1.2 Биологическое значение..........................................18

1.3 Основные задачи и подходы..................20

2 Спектральный метод распознавания повторов 27

2.1 Структурная схема метода...................27

2.2 Применение к геномам.....................31

2.2.1 Преобразование нуклеотидной последовательности

в функцию-аналог...................34

2.2.2 Восстановление нуклеотидной последовательности

из функции-аналога...................34

2.2.3 Получение спектров разложения . . ........36

2.2.4 Сравнение спектров разложения............38

2.2.5 Точечная матрица для отображения результатов сравнения ...........................40

2.3 Преобразования в пространстве коэффициентов.......41

3 Алгоритмы 45

3.1 Вычисление коэффициентов разложения...........45

3.1.1 Выбор метода разложения...............45

3.1.2 Разложение функции по коэффициентам.......47

3.2 Маски и отображение на матрице...............50

3.3 Координаты повторов......................53

3.4 Поиск периода протяженных тандемных повторов......57

3.5 Программная реализация........................................59

4 Тестирование и применение спектрального метода 61

4.1 Сравнение с аналогами.....................61

4.2 Тандемные повторы.......................64

4.3 Инвертированные повторы...................67

4.4 Регионы синтении........................69

Заключение 73

Литература 78

А Алгоритмы вычисления коэффициентов разложения 89

А.1 Рекуррентный алгоритм.....................89

А.2 Векторно-рекуррентный алгоритм...............91

А.З Матричный алгоритм......................92

А.4 Векторно-рекуррентный алгоритм с фиксированной глубиной векторизации........................93

Введение

Актуальность диссертационного исследования

Первые годы двадцать первого столетия ознаменовали начало новой эры в понимании живых систем - были ссквенированы геномы человека и основных модельных эукариотических организмов. Накопленный к настоящему времени и постоянно увеличивающийся объем генетической информации открывает возможности для проведения полномасштабных исследований на уровне целых геномов, однако при этом возникает необходимость разработки новых алгоритмов, способных эффективно и быстро обрабатывать большие объемы генетической информации. Одной из частных задач геномики является поиск повторяющихся элементов, изучение их структуры и распределения в геномах. Важность поиска повторяющихся элементов обусловлена биологической ролью данных структур в функционировании организма. Повторы могут быть мобильными элементами, способными вырезаться или копироваться в одном участке ДНК и встраиваться в другом, что в случаях попадания в регуляторные или кодирующие области может приводить к потере функции генов. Взаимодействие между повторяющимися элементами может вызывать различные хромосомные перестройки, такие как дупликации, инверсии, транслокации и т. д. Подобные хромосомные аберрации в кодирующих областях генома могут приводить к развитию генетических заболеваний. Изучение повторяющихся структур также важно с точки зрения их возможной роли в укладке и реорганизации ДНК. Стоит отметить тот факт, что повторы являются удобными генетическими маркерами, которые широко используются в прикладных и фундаментальных исследованиях. Например, короткие тандемные повторы применяются для определения родства и идентификации индивидуальных генотипов в криминалистике. Приме-

ром фундаментальных исследований может служить использование крупных повторяющихся структур генома при решении эволюционных и филогенетических задач - определении родства групп организмов на генном уровне.

Сложность определения повторяющихся фрагментов нуклеотидных последовательностей тесно связана с мутационными процессами, происходящими в организме, благодаря которым происходят вставки, замены и делеции отдельных нуклеотидов, а иногда и целых участков ДНК. Большинство методов поиска повторяющихся последовательностей основано на алгоритмах, которые работают с нуклеотидной последовательностью как со строкой символов. В этом случае учет точечных мутаций является вычислительно сложной операцией. Для решения этой проблемы предлагаются различные подходы, при этом некоторые из них базируются на спектральных методах, где в основу положено быстрое преобразование Фурье (БПФ). Помимо того, что спектральные подходы, основанные на БПФ, только отчасти решают проблему учета мутаций, они также ограничены в плане масштабируемости вследствие однозначного соответствия получаемого спектра нуклеотидной последовательности. Данные подходы позволяют исследовать нуклеотидные последовательности длиной порядка до 104 нуклеотидных пар (н. п.). Однако для решения отдельных задач в области эволюции и структурной геномики требуется работа с протяженными последовательностями на различных масштабах, включая хромосомы и полные геномы (порядка 109 н. п.). При этом с накоплением информации о новых организмах все большую роль будет приобретать скорость обработки генетических текстов. Таким образом, в настоящее время является актуальной разработка программных инструментов, позволяющих быстро сравнивать протяженные нуклеотидные последовательности, выделяя при сравнении наиболее значимые участки.

В настоящей работе предлагается использовать аппроксимирующие возможности рядов Фурье посредством анализа функций, получаемых из нуклеотидной последовательности, таких как ОС-состав. Это может обеспечить анализ нуклеотидных последовательностей на разных масштабах.

Объект, предмет и метод исследования

Объектом исследования являются протяженные (от 1000 н. п.) повторяющиеся структуры в ДНК, организация которых может иметь как диспергированный, так и тандемный характер. Предметом исследования является разработка математического подхода к решению задачи быстрого поиска крупных повторяющихся структур в нуклеотидных последовательностях, сопоставимых по размеру с хромосомами или целыми геномами. Для решения данной задачи применялись методы из области обработки сигналов, основанные на приближении непрерывных функций с помощью рядов Фурье по ортогональным базисным функциям и спектральных преобразований в пространстве коэффициентов разложения.

Цели и задачи

Целью данной работы является разработка спектрально-аналитического метода поиска протяженных повторяющихся нуклеотидных последовательностей в геномах. Для достижения поставленной цели необходимо было решить следующие задачи:

1. Разработать математический аппарат для поиска протяженных повторяющихся структур и получить аналитические соотношения для оценки различных типов повторов в пространстве коэффициентов разложения.

2. Разработать алгоритмы вычисления и сравнения векторов коэффициентов разложения, базирующиеся на параллельности и векторизации вычислений.

3. Разработать программное обеспечение, позволяющее производить поиск и анализ повторящихся нуклеотидных последовательностей в геномах.

4. Проанализировать модельные организмы с целью поиска ранее неизвестных повторяющихся последовательностей.

Научная новизна

Научная новизна работы состоит в том, что в качестве функционального аналога нуклеотидной последовательности впервые использовались две статистические кривые ОС-,ОА-содержания, позволяющие однозначно восстановить нуклеотидную последовательность. Впервые в задаче поиска повторяющихся последовательностей были применены аппроксимирующие возможности ортогональных многочленов, использование которых позволило производить изучение протяженных нуклеотидных последовательностей на разных масштабах.

Научно-практическая значимость

1. Предложенный метод позволяет быстро исследовать протяженные нуклеотидные последовательности на наличие крупных диспергированных и тандемных повторов. Исследования подобного рода позволят дополнить уже существующие работы, связанные с картированием генома и классификацией организмов на генном уровне.

2. Аналитические соотношения полученные в ходе диссертационной работы могут быть использованы в работах, посвященным теории приближения функций классическими полиномиальными базисами.

3. Реализованы быстрые алгоритмы вычисления коэффициентов разложения для ряда классических ортогональных полиномов, которые могут быть использованы в других областях науки, например, в распознавании образов.

4. Разработано методическое пособие, в котором показано, как можно эффективно оптимизировать некоторые алгоритмы спектрального анализа с применением сторонних программных библиотек для векторизации вычислений.

5. Разработана программа SB ARS для интерактивной обработки нуклеотидных последовательностей с целью выявления диспергированных и тандемных последовательностей. Программа является свободно распространяемой и доступна по адресу:

http: //тру atko v. github. сот/sbars/.

Основные положения, выносимые на защиту

1. Разработан метод поиска протяженных повторяющихся структур в нуклеотидных последовательностях, основанный на спектральном анализе пары кривых ОС-,ОА-содержания на разных масштабах и позволяющем выявлять различные типы повторяющихся структур (прямых, обратных, комплементарных, инвертированных).

2. Предложены и реализованы алгоритмы, которые позволяют максимально использовать параллельность и векторизацию современных процессорных архитектур.

3. На основе метода реализована процедура автоматического распознавания и поиска мегасателлитных повторов. На основе этой процедуры в хромосоме 17 кролика (Oryctolagus cuniculus) выявлен ранее неизвестный мегасателлитный повтор с длиной повторяющего фрагмента 2623 нуклеотида.

Аппробация диссертационного исследования

Результаты диссертационной работы были доложены на следующих конференциях: 13, 14, 15 Всероссийские конференции "Математические методы распознавания образов (ММРО)" (Зеленогорск, 2007; Суздаль, 2009; Петрозаводск, 2011); на 9-ой международной конференции "Распознавание образов и анализ изображений (РОАИ)" (Нижний Новгород,

2008); на II, III, IV Международных конференциях "Математическая биология и биоинформатика (1СМВВ)" (Пущино, 2008, 2010, 2012); на 8 и 9 международных конференциях "Интеллектуализация обработки информации (ИОИ)" (Пафос, 2010; Будва, 2012); на 12, 14, 16 Международных пущинских школах-конференциях молодых ученых "Биология наука XXI века" (Пущино, 2008, 2010, 2012); на 12 и 13 Международных суперкомпьютерных конференциях "Научный сервис в сети интернет" (Новороссийск, 2010, 2011), а также на IV Летней школе по научным вычислениям (Москва, 2009). Работа получила второе место в межлабораторном конкурсе "Intel Software - продемонстрируй красоту решения" (Москва,

2009), была выбрана для участи в проекте "Intel Manycore Testing Lab" и

является победителем всех этапов конкурса "Эффективное использование вРи-ускорителей при решении больших задач" проводимого компанией Т-Платформы (Москва, 2010, 2011).

Публикации

По теме диссертации опубликовано 27 научных работ, в том числе: 2 в списках журналов рекомендованных ВАК; 1 методическое пособие; 2 электронные публикации; 22 в сборниках тезисов конференций.

Структура и объем

Диссертация изложена на 94 страницах машинописного текста и состоит из введения, четырех глав, заключения и списка литературы. Список литературы состоит из 94 наименований. Работа содержит 24 рисунка, 6 таблиц.

Глава 1

Повторяющиеся структуры в геномах

1.1 Классификация структур

Еще до появления методов генной инженерии и секвенирования с помощью механизма денатурации-ренатурации ДНК было установлено, что участки ДНК реассоциируют с разной скоростью. Различия в скорости реассоциации были связаны с разной представленностью в ДНК отдельных нуклеотидных последовательностей. Участки, присутствующие в геноме один раз, назвали уникальными, а участки представленные в виде множества одинаковых копий и, соответственно, реассоциирующие существенно быстрее, чем первые - повторяющимися.

Секвенирование геномов позволило получить представление о структуре генома и выявить избыточность некодирующих участков ДНК по отношению к кодирующим. Оказалось, что сложность организма не всегда зависит от протяженности генома, так, например, размер генома одноклеточной АтоеЬаБиЫа в 200 раз превышает человеческий, однако причиной тому является обилие повторяющихся последовательностей. Количество кодирующих генов имеет близкий порядок величины во всех эука-риотах: 6000 генов для пекарских дрожжей (,ЗассНаготусе8сегеу18гае), 22000-23000 для человека и т.д. В настоящее время можно уверенно сказать, что повторяющиеся элементы широко представлены в геномах эу-кариотических организмов, в частности в геноме человека 50% участков

ДНК являются повторяющимися последовательностями [1,2].

Явные отличия между повторяющимися элементами позволяют выделить различные группы и семейства. Самый верхний уровень классификации — это "тандемные повторы" и "диспергированные повторы". Основное отличие одних от других состоит в том, что в случае тандемных повторов каждая последующая копия сразу же следует за предыдущей, а в случае диспергированных отдельные копии могут быть разделены протяженными участками нуклеотидной последовательности.

Каждое из этих семейств можно разделить на подсемейства, как показано на рисунке 1.1 [3]. В семейство диспергированных повторов входят все транспозоны, гены транспортных РНК и гены-паралоги, в то время как к тандемным повторам относят тандемы генов, массивы повторов ри-босомальной ДНК и сателлитную ДНК, которую в свою очередь можно разделить на мегасателлиты, сателлиты, минисателлиты и микросателлиты. Примечательно то, что молекулярные механизмы ответственные за создание и распространение диспергированных и тандемных повторов являются специфическими для каждого класса и, как правило, не пересекаются.

Рассмотрим подробнее некоторых представителей каждого семейства.

1.1.1 Диспергированные повторы Паралогичные гены и генные семейства.

Полногеномные дупликации и сегментные дупликации это два явления, которые создают избыточность ДНК путем удвоения большого количества генов в геноме. Когда это происходит, кодирующие последовательности (экзоны) и некодирующие последовательности (интроны) могут накапливать мутации, что приводит к появлению псевдогенов - аналогов структурных генов, утративших способность кодировать белок [4]. Другой путь дупликации генов называется ретротранскрипция и происходит путем обратной транскрипции матричной РНК в кодирующую ДНК и затем встраивания в геном за счет механизма рекомбинации. Гены, встраиваемые таким путем, называются ретрогенами. Ретрогены не содержат интронов, а так как процесс обратной транскрипции неточен -

avorite Genome J

Рисунок 1.1: Повторяющиеся ДНК-последовательности в эукариотических геномах и их общие механизмы эволюции. Показаны две основные категории повторяющихся элементов (тандемные и диспергированные повторы) с подкатегориями. Синие стрелки указывают на молекулярные механизмы участвующие в распространении и развитии повторяющихся последовательностей. REP, ошибки при репликации; GCO - Gene Conversion , генная конверсия; WGD - Wide Genome Duplication, полногеномная дупликация; SEG, сегментная дупликация; RTR - Reverse Transcription, обратная транскрипция; TRA, транспозиция; MMR - Mismatch Reparation, репарация ошибочно спаренных нуклеотидов [3].

накапливают множество ошибок. При встраивании в геном такие гены в редких случаях остаются рабочими по причине отсутствия промоторов, регуляторных участков и большого количества ошибок, что превращает их в псевдоретрогены.

Как исключение можно привести пример мультигенного семейства фосфоглицерат-киназы человека (PGK), которое состоит из активного гена расположенного на Х-хромосоме и дополнительного гомолога, находящегося в неполовой хромосоме. Гомолог не содержит интронов, и по формальным признакам его появление обусловлено участием механизма обратной транскрипции. Однако в отличие от большинства ретроге-

нов, этот ген экепресеируется, более того, его экспрессия наблюдается исключительно в семенниках. Таким образом, ретроген не только сохранил рамку считывания и способность транскрибироваться и образовывать функциональный полипептид, но и приобрел тканеспецифичность [5].

Ретротранспозиция наравне с с