Бесплатный автореферат и диссертация по биологии на тему
Исследование локальных сходств геномов эукариот
ВАК РФ 03.00.02, Биофизика
Автореферат диссертации по теме "Исследование локальных сходств геномов эукариот"
На правах рукописи
Огурцов Алексей Юрьевич ИССЛЕДОВАНИЕ ЛОКАЛЬНЫХ СХОДСТВ ГЕНОМОВ ЭУКАРИОТ
03.00.02 -биофизика
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Пущино - 2003
Работа выполнена в Институте теоретической и экспериментальной биофизики РАН и в отделе вычислительной биологии Национального Центра биотехнологической информации Национальной библиотеки медицины Национального института здоровья, США
Научный руководитель:
Официальные оппоненты:
доктор физико-математических наук, профессор В. Г. Туманян доктор физико-математических наук Л. В. Якушевич
Ведущая организация: Федеральное Государственное Унитарное Предприятие «Государственный Научный Центр ГосНИИ Генетики»
Защита состоится «_»_2003 г. в_часов на
заседании Диссертационного совета Д 002.093.01 при Институте теоретической и экспериментальной биофизики РАН по адресу: 142290, Московская область, г. Пущино, ул. Институтская, 3
С диссертацией можно ознакомиться в библиотеке Института теоретической и экспериментальной биофизики РАН
Автореферат разослан «_»_200_г.
Ученый секретарь Диссертационного совета кандидат физико-математических
доктор физико-математических наук Р. В. Полозов
наук
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы
В настоящее время, общая длина хранящихся в базе данных GenBank последовательностей превышает 100 миллиардов нуклеотидов. Аннотация большей части геномных последовательностей, публикуемых в базе данных GenBank, содержит информацию о генах (их экзон - интронной структуре и нетранслируемых участках) и повторах. Аннотация последовательностей проводится в основном с использованием компьютерных методов сравнения последовательностей и предсказания кодирующих областей. Экспрессия генов обеспечивается многочисленными регуляторными элементами, плотность нуклеотидных последовательностей которых в геномах эукариот превышает плотность кодирующих участков. Описание и разграничение функциональных элементов требует как проведения большого количества трудоемких экспериментов, так и разработки алгоритмов предсказания, создания специализированного программного обеспечения, помогающего направить поиск на наиболее вероятные участки генома.
Таким образом, компьютерный анализ геномной информации является одним из перспективных направлений, хотя и сопряжен со многими трудностями. Несмотря на значительное число работ, посвященных методам сравнения нуклеотидных последовательностей, отсчет которым можно вести с выхода в 1970г. работы С.Б. Нидлемана и С.Д, Вунша (Needleman S.B. and Wunsch C.D., 1970), нерешенных проблем в анализе последовательностей все еще больше, чем решенных.
В настоящее время, функционально значимые участки некодирующей ДНК недостаточно изучены. Применяя сравнительный метод, не зная, какие последовательности важны в отдельно взятом геноме, мы все же можем предположить, что важные гомологичные последовательности в геномах близких видов будут похожи друг на друга. По крайней мере, это относится к последовательностям, ответственным за межвидовое сходство.
Цели работы
Целью данной работы является создание алгоритма и основанного на нем программного комплекса для выравнивания длинных эукариотических последовательностей с широко варьирующимся уровнем локального сходства. Провести, с использованием этого инструмента, сравнительный анализ гомологичных некодирующих последовательностей в геномах организмов с умеренной степенью родства.
Задачи исследования
1. Разработать алгоритм сравнения геномных последовательностей со временем работы О(N loglog/V), где N - длина последовательности.
2. На основе разработанного алгоритма создать интерактивное (графическое) программное обеспечение для выравнивания геномных последовательностей. Программа должна быть
разработана с учетом ее использования на операционных системах Unix и Windows.
3. Провести сравнительный анализ нематод Caenorhabditis elegans и Caenorhabditis briggsae. Определить долю функционально значимых нуклеотидов, находящихся под селективным ограничением. Получить оценку транскибируемой части генома C.elegans. Провести анализ относительного распределения функциональных элементов.
4. Провести сравнительный анализ межгенных интервалов геномов человека и мыши, определить долю функционально значимых нуклеотидов, находящихся под селективным ограничением.
Научная новизна
1. Разработан эффективный алгоритм иерархического выравнивания последовательностей. Время работы алгоритма составляет порядка N loglogiV, что позволяет сравнивать длинные последовательности, вплоть до полных хромосом млекопитающих. Иерархичность подхода позволяет, в ходе ряда итераций, выявлять участки локального сходства различной статистической значимости.
2. Алгоритм реализован в виде программы "Оуэн", названной в честь английского зоолога Ричарда Оуэна, разработавшего в 1848г. концепцию гомологии (Owen R., 1848). Программа "Оуэн" имеет графический интерфейс и представляет собой редактор локальных выравниваний геномных последовательностей. "Оуэн" работает в операционных системах Unix и Windows. Программа "Оуэн" является единственной и уникальной интерактивной программой-редактором локальных выравниваний.
3. Программы "Оуэн" позволяет проводить анализ межвидовой консервации гомологических межгенных интервалов геномов эукариот. Используя кластеризацию похожих последовательностей, показано, что выявленные таким образом консервативные участки совпадают с участками, идентифицированными в межгенных интервалах экспериментальными методами.
4. Проведен статистический анализ выявленных консервативных участков межгенных интервалов. Показано, что доля функционально значимых последовательностей в межгенных интервалах геномов многоклеточных эукариот составляет не менее 10%.
Научно-практическая значимость работы
Программа "Оуэн" применяется в ряде лабораторий для изучения функционирования эукариотических геномов, для сравнения геномов нематод, мыши, крысы и человека, а также для анализа геномов комара, малярийного плазмодия и вируса атипичной пневмонии. В настоящее время, при помощи программы "Оуэн" проводится сравнительный анализ регуляторных последовательностей ортологичных генов человека, мыши и рыбы фугу.
Апробация работы
По теме диссертации опубликовано 7 работ, 3 работы приняты в печать и 2 работы находятся в печати. Результаты диссертационной работы докладывались на семинарах Национального института здоровья США, Университета штата Мэрилэнд, международной конференции RECOMB 2002 (Вашингтон, США) в секции демонстрации программного обеспечения и на семинаре Института Экспериментальной и Теоретической Биофизики Российской Академии Наук (г. Пущино).
На защиту выносятся следующие положения:
1. Разработан алгоритм иерархического выравнивания последовательностей, позволяющий выявлять консервативные участки геномов в областях с умеренным и слабым сходством. Алгоритм требует для работы время порядка N loglogiV и память пропорциональную длине сравниваемых последовательностей, что позволяет выравнивать длинные геномные тексты на обычных персональных компьютерах или графических станциях.
2. На основе предложенного алгоритма разработана программа "Оуэн", представляющая собой графический интерактивный редактор выравниваний. "Оуэн" является мультиплатформной программой, т.е. разработан и реализован для операционных систем Unix и Windows.
3. Проведен анализ закономерностей межвидовой консервации гомологических межгенных интервалов геномов эукариот. Проведена кластеризация выявленных консервативных участков. Показано, что консервативные участки в межгенных интервалах совпадают с участками, идентифицированными экспериментальными методами.
4. Найдено, что в геномах эукариот уровень функционально значимой ДНК в межгенных интервалах составляет, соответвенно, для человека - 15%, для мыши - 19%, для Caenorhabditis elegans - 15% и для Caenorhabditis briggsae - 15%, что опровергает высказываемое ранее предположение о том, что подавляющая часть геномной ДНК в некодирующих областях не несет никакой информационной нагрузки.
5. Показано, что функционально значимые участки в межгенных интервалах нематод расположены не случайным образом, а формируют кластеры, что указывает на вероятное объединение этих элементов в функциональные комплексы.
6. Показано, что для нематод доля нетранскрибируемой ДНК составляет 26%. Сопоставляя эту величину с известной долей кодирующих последовательностей (27%) и интронов (26%) удалось оценить суммарную долю нетранслируемых участков - 21%, которая оказалась сравнимой с длиной кодирующих участков.
Структура и объем диссертации
Объем диссертации составляет 91 страницу машинописного текста, включая 2 таблицы и 19 рисунков. Диссертация состоит из введения, обзора
литературы, главы 2 "Иерархический подход к построению цепочек локальных сходств", главы 3 "Анализ сходства 142 пар ортологичных межгенных интервалов в геномах Caenorhabditis elegans и Caenorhabditis briggsae", главы 4 "Селективное ограничение в межгенных интервалах геномов мыши и человека" и списка литературы, состоящей из 114 источников, из которых 100 иностранные.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы настоящей работы, сформулированы основные цели и задачи исследования.
Первая глава посвящена анализу литературы по вопросам, решаемым сравнительным анализом геномов (сравнительной геномикой), приводятся информационные ресурсы геномных баз данных, ставится задача, рассматриваются методы и алгоритмы построения гомологий, оценка статистической значимости построенных локальных выравниваний. Задача построения локальных выравниваний сводится к задаче, решаемой методами динамического программирования. Алгоритмы динамического программирования требуют памяти порядка N\*N2 и времени такого же порядка, где N\ и N2 - длины сравниваемых последовательностей. Эти требования делают проблематичным выравнивание длинных последовательностей. Так, например, для выравнивания двух последовательностей по 100 ООО букв требуется память порядка Ю10 байт. Оперативная память такого размера редко встречается в компьютерах.
Во второй главе описывается предлагаемый диссертантом алгоритм иерархического выравнивания последовательностей.
Так как все современные клетки произошли от общего предка (Албертс Б. и др., 1994), участки сходств могут быть найдены между любыми двумя геномами. Локальные сходства между ортологичными областями геномов с обширной коллинеарностью также в основном коллинеарны (последовательны, неконфликтны), то есть следуют в одинаковом порядке в обоих геномах (Schwartz S. et al., 2000). Другими словами, макроколлинеарность обычно заключает в себе микроколлинеарность (Rossberg М. et al., 2001) потому, что скорость расхождения быстро эволюционирующих областей геномов превышает скорость процессов, разрушающих микроколлинеарность, таких как эволюция в результате дупликаций, инверсий, перестановок, и конвергенций. С биологической точки зрения ортологичные локальные сходства соответствуют единице функционирования и, тем самым, являются консервативными (Shabalina S.A. et al., 2001). На практике, если рассмотреть все возможные локальные сходства между двумя длинными последовательностями, обычно возникают многочисленные конфликты. Большинство конфликтов возникает по причине сходства транспозонов и
микросателлитов разбросанных случайно, которые, впрочем, можно распознать и замаскировать (Miller W., 2001).
Для построения цепочки локальных сходств необходимо разрешить все конфликты путем удаления нескольких конфликтующих локальных сходств или их частей. С. Шварц (Schwartz S. et al., 2000) описал два метода нахождения "истинной" цепочки локальных сходств, оба они создают цепочку оптимальную в целом, или, другими словами, максимизирующую глобальную оценочную функцию. Здесь предлагается принципиально другой подход. Этот подход не создает оптимальную в целом цепочку, а напротив, разрешает каждую пару конфликтующих сходств в пользу более сильного локального сходства. В этой работе алгоритм представлен в терминах сравнения двух последовательностей, и созданный на его основе программный продукт "Оуэн" (Ogurtsov A.Y. et al, 2002) в настоящее время работает с двумя последовательностями, хотя множественное выравнивание трех и более последовательностей может быть построено аналогичным способом.
Предлагаемый простой, иерархический подход основан на том наблюдении, что профиль сходства длинных коллинеарных участков умеренно похожих геномов значительно изменяется от участка к участку. Так, между соответствующими ортологичными функциональными сайтами степень сходства часто лучше средней, а части глобального выравнивания, являющиеся значимыми, покрывают ' только малую часть последовательности.
Между значимыми частями выравниваний сходство соответствующих участков последовательностей мозаично, и построение блоков геномных выравниваний есть нахождение локальных сходств с различными длинами, многие их которых индивидуально статистически значимы. Пара локальных сходств в таких блоках часто вступает в конфликт, вследствие того, что событие, вызвавшее нарушение микроколлинеарности, возникло во время эволюции сравниваемых геномов от общего предка (рис. 1).
Во-первых, микроколлинеарность могла быть нарушена во время локальной конвергентной эволюции (или по-другому вставки) в один геном повторяющейся последовательности, которая также присутствует во втором геноме, но в другом месте. В этом случае одно из конфликтующих сходств не имеет ортологичной последовательности и профиль ортологии может по-прежнему представлять цепочку. Во-вторых, микроколлинеарность может быть нарушена в результате локальной перестановки сегментов в одной или обеих последовательностях (рис. 1 .а) или небольшой дупликации (рис. 1.6). В этом случае сходства между ортологичными участками не формируют цепочку.
Последовательность и
Рисунок 1. Типы конфликтов между локальными сходствами показаны как диагонали в точечной матрице гомологии, (а) Конфликт произошел в результате перестановки двух участков в одной из последовательностей, (б) Конфликт произошел в результате полного перекрывания похожих участков, (в) Слабый конфликт вследствие частичного перекрывания похожих участков. Этот конфликт можно разрешить, убрав части перекрывающихся концов.
В первом случае конвергентная эволюция последовательностей вряд ли сделает их достаточно похожими, следовательно, ортология после такой эволюции вероятнее всего отражается сильнейшим из конфликтующих сходств. Вставка же повтора может привести к сильному и при этом неортологичному сходству, поэтому необходимо замаскировать повторы на первых этапах сравнения.
Во втором случае трудно сказать, какое из конфликтующих сходств между ортологами должно быть сохранено в цепочке, а какое должно быть очищено. Очевидно, имеет смысл сохранять более сильное сходство.
Таким образом, правило всегда сохранять сильнейшее сходство генетически обосновано в первом случае и не противоречит логике во втором случае. Далее, термин "сильнейшее" будет означать "имеющее более низкую вероятность".
Можно сформулировать два основных принципа подхода к нахождению "истинной" цепочки локальных сходств:
(1) Все конфликты между статистически значимым сходством и любым количеством слабых сходств решается в пользу значимого. Таким образом, сходства, не конфликтующие со всеми более сильными, всегда включаются в цепочку.
(2) Принцип 1 примененный не к построенным сходствам, а к достраиваемым, означает фрактальность, т.е. позволяет достраивать сходства в промежутках цепочки.
Концептуально, разрешение парных конфликтов в пользу имеющего лучшее сходство более просто. В противоположность, не совсем ясна рациональность единственной альтернативы этому - поиска цепочки сходств, оптимальной в целом (Zhang Z. et al., 1994; Schwartz S. et al., 2000). При построении оптимальной цепочки требуется учитывать, так или иначе, штрафы за невыравненые участки внутри такой цепочки; при построении новых сходств для включения в уже существующую цепочку необходимо заново полностью просматривать пространство, определенное последовательностями.
Для того чтобы найти цепочку, оптимальную в целом, требуется использование динамического программирования. Время выполнения наиболее эффективного на данный момент "разреженного" динамического программирования (Eppstein D. et al., 1992) зависит от структуры данных, используемых для хранения перспективных для продолжения областей, и может быть пропорционально N-log(N) (Chao K.M. et al., 1995) или даже A4og log(L), где L - длина более короткой последовательности. Однако мультипликативная константа для сортировки меньше, чем для динамического программирования, поскольку используется только одно а не два, дерева и, поэтому, не требуется дополнительных вычислений (в том числе по нахождению пересечений границ между зонами перспективными для продолжения). На практике, как основная цепочка, так и цепочка, оптимальная в целом, для данного набора сходств могут быть найдены довольно быстро. "Оуэн" (Ogurtsov A.Y. et al., 2002) поддерживает обе эти возможности.
Иерархический алгоритм более эффективен по двум причинам. Во-первых, время создания основной цепочки для множества из N сходств определяется временем сортировки их весов. Это может быть сделано за время пропорциональное N-\og(N) или, при наложении некоторых условий на ограничение сверху и снизу этих весов (Ахо А. и др., 1979), даже за время пропорциональное iV-log log(iQ (где К является разницей между наибольшим и наименьшим возможными весами), используя приоритетные очереди (Кнут Д.Э., 2000), многослойные деревья (van Emde Boas P., 1977), или ограниченные упорядоченные словари (Melhorn К. and Nahler S., 1990).
Во-вторых, и это наиболее важно, когда конфликты разрешаются индивидуально, не требуется находить все сходства сразу. Так, при сравнении двух последовательностей длиной порядка 107 (обычная длина
участков коллинеарности, сохранившаяся между геномами мыши и человека) нахождение всех возможных сходств требует недопустимо высокое время пропорциональное 1014 и с большой мультипликативной константой. Однако сильные сходства могут быть найдены достаточно быстро, если предположить, что они содержат хотя бы непродолжительные участки точных совпадений. Таким образом, можно начать с использования "/-граммного" метода (или его модификацию, используемую в BLASTe, Altschul S.F. et al., 1997) нахождения локальных сходств и продолжить исчерпывающий поиск слабых сходств только внутри блоков, определенных границами сильных сходств внутри первоначальной 107 * 107 точечной матрицы. Это на порядки убыстряет сравнение длинных последовательностей. В противоположность, при построении цепочки сходств, оптимальной в целом, вся точечная матрица гомологий должна быть просканирована, так как даже слабое сходство потенциально может быть включено в такую цепочку.
Главы 3-4 описывают применение алгоритма выравниванию к межгенных интервалов многоклеточных эукариот, выделению и описанию консервативных участков в их последовательностях.
Многие различия между организмами могут быть вызваны изменениями в регуляции транскрипции и трансляции (Tautz D., 2000). Транскрипция и трансляция часто регулируются элементами, расположенными в межгенных интервалах. Межгенные интервалы здесь определены как часть последовательности, расположенная между стартом и/или стоп кодонами трансляции двух последовательных генов. Таким образом, через исследование профиля сходства консервативных участков внутри межгенных интервалов, можно сделать вывод об их функциональности, и узнать, как изменения в этих функциях влияют на различия организмов.
Такой подход к сравнению геномов ранее был неоднократно использован для определения потенциально функциональных элементов (Кимура М„ 1985; Kent W.J. and Zahler A.M., 2000; Bergman C.M. and Kreitman M., 2001).
Присутствие участков с высоким уровнем сходства наводит на мысль, что эти участки отвечают за некоторые функции, важные для организма, что ведет к отрицательному отбору, действующему на них. Если сравниваемые геномы достаточно далеки друг от друга, т.е. число поколений от их последнего общего предка значительно превосходит обратную величину скорости нуклеотидных мутаций, то мутации в нейтральных областях (в областях, в которых не действует отбор) имели достаточно времени, чтобы достичь насыщения (Кимура М., 1985), и сходство вне филогенетических следов должно быть не выше, чем ожидаемое в случайных последовательностях. В частности, насыщение наблюдается в геномах
C.elegans и C.briggsae (Shabalina S.A. and Kondrashov A.S., 1999; Kent W.J. and Zahler A.M., 2000).
Для того чтобы найти ортологичные межгенные интервалы, были найдены пары ортологичных генов, в предположении, что ортологичные межгенные интервалы находятся между ними. Были найдены 1130 потенциальных ортологичных межгенных интервалов, которые затем были профильтрованы по различным критериям для того, чтобы избежать попадания в исследуемую выборку неортологичных участков вследствие плохой или неправильной аннотации геномов.
После применения этих критериев выборка уменьшилась до 142 ортологичных межгенных интервалов, содержащих последовательности длинной 97,7 тысяч нуклеотидов в C.elegans и 92,5 тысяч нуклеотидов в C.briggsae соответственно. Выборка состояла из 68 межгенных интервала с двумя граничащими генами, ориентированными к нему 3' концами, 45 межгенных интервала - с 3' концом и 5' началом и только 29 межгенных интервала - с двумя 5' концами.
Используя информацию об EST для C.elegans, было определено число транскрипций для каждого межгенного интервала, применяя поиск BLAST (Altschul S.F. et al., 1997) участков последовательностей C.elegans в базе данных C.elegans EST. Предполагалось, что выравнивание участка C.elegans с EST представляет транскрибируемую нетранслируемую часть последовательности. Так образом средняя длина определенных нетранслируемых областей составляет 199 нуклеотидов в геноме C.elegans. Средняя длина 5' нетранслируемой области составляет 87 нуклеотидов. Оценка общего количества филогенетических следов, находящихся в нетранслируемых областях, полученная для межгенных интервалов с обоих концов покрытых EST, составляет в геноме C.elegans 56%.
Также была получена оценка для процентного покрытия транскибирующейся части генома C.elegans. Ранее было показано, что в C.elegans, 27% генома составляют предсказанные кодирующие экзоны, 26% - интроны и, следовательно, 47% - межгенные интервалы (The C.elegans Sequencing Consortium, 1998). Исходя из информации о межгенных интервалах, находящихся в нашей выборке и с обоих концов покрытых EST, оценка для транскрибирующейся части межгенного интервала составляет 44%. Тем самым, 74% всего генома C.elegans транскрибируется. Эта оценка составляет верхнюю границу, так как в нашей выборке находятся межгенные интервалы, взятые, в основном, из областей с высокой концентрацией генов, и, тем самым, в среднем более короткие. Настоящее значение транскибируемой части генома должно находиться между 53% и 74%, т.е. между той частью генома, что состоит только из экзонов и интронов (которые транскрибируются всегда), и полученной выше оценкой.
Сходство двух последовательностей в выравнивании, по сути, бывает двух типов: образованное в результате селективного ограничения и
образованное случайно. Уровень селективного ограничения может быть определен, используя метод СЛ. Шабалиной и A.C. Кондрашова (Shabalina S.A. and Kondrashov A.S., 1999).
Этот метод предполагает два типа нуклеотидов, свободно эволюционирующих и находящихся под отбором. По определению, все нуклеотиды, находящиеся не в филогенетическом следе, имеют возможность свободно эволюционировать, а нуклеотиды в филогенетических следах могут быть разных типов. Степень селективного ограничения филогенетического следа сначала вычисляется для более короткой последовательности как отношение (s - r)/( 1 - г), где s является сходством внутри филогенетического следа, г - вероятность совпадения нуклеотидов в случайных последовательностях с аналогичными нуклеотидными составами. Степень селективного ограничения для более длинной последовательности может быть получена из отношения (Короткая/¡длинная) 0 ~ ?)!{1 - г), Где Короткая " длина короткой последовательности, а 1длшнш, - длина более длинной последовательности. Число нуклеотидов, находящихся под селективным ограничением, вычисляется как степень селективного ограничения, умноженная на длину участка. Для определения степени селективного ограничения в нетранслируемых областях или межгенных интервалах, сначала определяют число нуклеотидов, находящихся под селективным ограничением, путем суммирования их для тех филогенетических следов, что расположены в этих областях.
В среднем, 71% нуклеотидов в филогенетических следах находятся под селективным ограничением для C.elegans и C.briggsae. Его уровень изменяется от 46% до 100% для C.elegans и от 46% до 96%-для C.briggsae. В нетранслируемых областях генома C.elegans в среднем 43% нуклеотидов находится под селективным ограничением, а в межгенных интервалах - в среднем только 15% нуклеотидов. Уровень селективного ограничения для межгенных интервалов меняется от 0% до 65% в зависимости от метода определения филогенетических следов, направления кодирования генов, расположенных по краям, и функции этих генов.
Распределение филогенетических следов содержит плотные места, которые также являются значимыми. Этот эффект проиллюстрирован на рисунке 2.
I-
Последовательность C.briggsae (в нуклеотидах)
Рисунок 2. Пример точечной матрицы гомологии с отмеченными филогенетическими следами, группирующимися в плотные места внутри межгенного интервала. Последовательность С.е1е°апв взята из базы данных вепБапк (запись 274040, космида КЮБб): 8203-13293, последовательность С.Ъгщ&ае из космиды ММ10А5: 17365-21824.
4000
О & 3000
2000
1000
0
Нулевая гипотеза заключается в том, что расстояния между филогенетическими следами могут быть представлены как результат пуассоновского процесса, когда точки - аналоги филогенетических следов случайно бросаются на линию - последовательность. В этом случае расстояния между филогенетическими следами должны быть распределены экспоненциально. Конечно же, филогенетические следы не являются точками, однако они слабо связаны с длиной последовательности и относительно редки, покрывая в общем 20% межгенных интервалов, так что пуассоновский процесс является разумной аппроксимацией. Распределение расстояния между филогенетическими следами для всех межгенных интервалов значимо отличается от экспоненциального распределения -384,4, Р < 0,005; рис. 3). Число коротких расстояний избыточно, а число
средних недостаточно, что ведет к наличию более плотных мест в распределении филогенетических следов.
Расстояние между филогенетическими следами (в нуклеотидах)
Рисунок 3. Распределение расстояния, измеренное как расстояние от конца одного филогенетического следа до начала следующего в C.elegans. Вертикальные столбцы представляют собой наблюдаемые частоты 225 таких расстояний. Ожидаемая частота обозначена линией. Распределение для C.briggsae имеет аналогичную картину (не показано).
Наиболее разумное объяснение наличия филогенетических следов состоит в том, что они имеют функциональную природу, и процесс отбора сохраняет их. Альтернативная гипотеза состоит в том, что филогенетические следы являются холодной точкой мутации (Clark A.G., 2001). Однако, как показано, они дают неслучайное распределение, частотный профиль, более высокое отношение транзиций к трансверсиям и более высокое содержание нуклеотидов Г и Ц. Статьи (Kent W.J. and Zahler A.M., 2000; Bergman C.M. and Kreitman M., 2001; Hardison R.C. et al., 1997; Boeddrich A. et al., 1999; Jareborg N. et al., 1999) описывают также исследования, которые позволили связать филогенетические следы с экспериментально определенными функциональными элементами. В дополнение, модель Кларка мутационного дрейфа предсказывает логарифмическое распределение длины филогенетических следов, а распределение длины филогенетических следов не является логарифмическим (критерий Шапиро-Уилка, W = 0,97, Р = 0,012). Все вышесказанное подтверждает, что филогенетические следы
являются консервативными функциональными элементами. A priori, список функциональных возможностей заключает в себя транспозоны, кодирующие и некодирующие экзоны, элементы вторичной структуры мРНК, важные для регуляции, РНК гены, промоторы и энхансеры. Некоторые из этих возможностей не характерны для филогенетических следов по указанным ниже причинам.
Невозможно, чтобы филогенетические следы были транспозонами, вставившиеся ортологичные участки последовательностей. В целом, транспозоны редко встречаются в C.elegans (The C.elegans Sequencing Consortium, 1998). Однако, имеются свидетельства, подтверждающие тот факт, что транспозоны могут быть использованы геномом как регуляторные элементы (Гусев М.В. и Минеева JI.A, 1992; Kidwell M.G. and Lisch D.R., 2001; Brosius J., 1999; Makalowski W., 2000). Такие элементы находятся в консервативных участках, однако можно с уверенностью утверждать, что они отсутствуют в исследуемой выборке. Все последовательности были сравнены с базой данных транспозонов C.elegans, используя RepeatMasker (http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker) (A.F.A.Smit и P.Green, неопубликованные данные), в результате чего были найдены только семь транспозонов, ни один из которых не пересекался с филогенетическим следом. Также все филогенетические следы были сравнены с другими участками генома C.elegans, используя BLAST (Altschul S.F. et al., 1997). Практически все филогенетические следы имеют последовательности, уникальные в геноме. Это также согласуется с тем, что некоторые филогенетические следы могут являться членами больших семей последовательностей, распознаваемых как факторы транскрипции, однако, сходство таких последовательностей часто низкое, за исключением очень короткого консенсуса (Levy S. et al., 2001).
Также мало вероятно, чтобы филогенетические следы являлись неизвестными кодирующими экзонами по следующим причинам. Во-первых, здесь использовались три различные программы предсказания генов и ни одна последовательность с предсказанным кодирующим экзоном в выборку не включалась. Во-вторых, выравнивания межгенных интервалов не имели характерную структуру выравнивания кодирующих экзонов: а именно, сходство нуклеотидных последовательностей филогенетических следов превышало сходство аминокислотных последовательностей, полученных путем трансляции нуклеотидных последовательностей, и, выравнивания содержали участки делеций, не кратные трем. В-третьих, отношение транзиций к трансверсиям в кодирующих последовательностях обычно выше единицы (Волькенштейн М.В., 1976; Mullikin J.С. et al., 2000; Wang D.G. et al., 1998; Барковский E.B. и др., 2002), а отношение в исследуемых филогенетических следах равнялось 0,81 и значимо ниже единицы (t = 4,7, Р < 0,001). И, наконец, средняя длина филогенетических следов составляет 61,8 нуклеотида, что значимо короче, чем средняя длина
кодирующего экзона в 99,7 нуклеотида для C.elegans (t = 48,3, Р < 0,001) (Deutsch М. and Long М, 1999).
Филогенетические следы могу быть экзонами, что является вполне возможным для Caenorhabditis. Показано, что приблизительно 70% генов в C.elegans могут транссплайсироваться (Blumenthal Т., 1995; Huang Т. et al., 2001). При построении выборки межгенных интервалов 56% потенциальных ортологичных межгенных интервалов было выброшено, так как требовалось одинаковое предсказание трех программ нахождения генов. Многие из отсеянных участков могли содержать перекрывающиеся последовательности, поскольку они обычно неточно предсказываются программами. Также на межгенные интервалы накладывались EST для того, чтобы избежать возможного попадания транссплайсирующихся последовательностей в выборку. Также межгенные интервалы были просмотрены на наличие в них канонического TTTCAG транссплайсинг акцептора за 5' EST (Blumenthal Т., 1995), были найдены всего три потенциальных сайта сплайсинга из 14 рассмотренных 5' EST. Эти данные предполагают, что до 21% наших данных могут участвовать в транссплайсинге. Однако самый длинный известный такой участок имеет длину в 400 нуклеотидов (Blumenthal Т., 1995; Huang Т. et al., 2001). Если убрать из выборки межгенные интервалы с длиной менее 500 нуклеотидов, то результат значимо не изменится, подтверждая, что возможные наличие транссплайсинга на результате не отражается, даже если и присутствует.
Некоторые филогенетические следы в нетранслируемых областях могут соответствовать некодирующим экзонам, присутствующих у высших эукариот. Некодирующие экзоны часто плохо предсказываются программами поиска генов (Wong G.K.S. et al., 2000), однако они являются важной частью в регуляции трансляции. Такие экзоны транскрибируются, но не транслируются и, тем самым, могут быть филогенетическими следами.
Второй функцией филогенетических следов в нетранслируемых областях возможно является участие филогенетических следов в образовании вторичной структуры мРНК. В частности, структурные элементы петля-шпилька Y-типа и псевдоузлы могут быть важны в IRES элементах, где регулирование трансляции происходит без инициатора тРНК (Воронина A.C., 2002; RajBhandary U.L., 2000; Le S.Y. and Maizel J.V., 1997). Другими словами, сохранение некоторых РНК структурных элементов таких, как петля-шпилька Y-типа и псевдоузлы, могло производить группирование филогенетических следов, как было отмечено ранее. Есть также несколько примеров участков последовательностей богатых нуклеотидами Г и Ц, связанных с регулированием трансляции на 5' началах генов (Kozak М., 1991), что согласуется с наблюдаемым профилем увеличенного содержания нуклеотидов Г и Ц в областях, предшествующих 5' началам генов.
Филогенетические следы вне нетранскрибируемых областей могут быть РНК генами (Erdmann V.A. et al., 2001). Существует также прямое свидетельство того, что филогенетические следы в нетранслируемых областях могут быть регуляторными элементами, такими как промоторы или энхансеры, и, видимо они и составляют основную часть филогенетических следов в нетранслируемых областях. Прямое соответствие на уровне последовательности было найдено между филогенетическими следами и экспериментально определенными регуляторными элементами в геноме Drosophila (Dickinson W.J., 1991), а также между консервативными участками филогенетических следов в выравниваниях межгенных интервалов геномов мыши и человека и экспериментально определенными регуляторными мотивами (Kondrashov A.S. and Shabalina S.A., 2002). Нуклеотидное содержание филогенетических следов в этом исследовании косвенно указывает на регуляторную функциональность. Отношение транзиций к трансверсиям в филогенетических следах очень близко к экспериментально определенным регуляторным элементам (Shabalina S.A. et al., 1991), когда высокое содержание нуклеотидов Г и Ц в филогенетических следах сравнивалось с остальной частью межгенного интервала (Brown A.M. and Lemke G., 1997; Butta N. et al., 2001). Суммируя вышесказанное, можно утверждать, что филогенетические следы несут в большинстве регуляторную функцию транскрипции и/или трансляции.
Оценка среднего уровня селективного ограничения в межгенных интервалах, составила 15%, и очень близка к полученным оценкам в некоторых других исследованиях. Так, например, эта оценка согласуется с оценкой для C.elegans и C.briggsae, равной 18%, полученной для небольшого количества межгенных интервалов с более длинной средней длиной (3000 нуклеотидов) (Shabalina S.A. and Kondrashov A.S., 1999). Эта оценка похожа на оценку селективного ограничения, полученную для геномов мыши и человека, 19% - для мыши и 15% - для человека (Shabalina S.A. et al., 2001), и геномов Drosophila, 22%-26% (Bergman С.М. and Kreitman M., 2001). Средний уровень селективного ограничения 15-30% в межгенных интервалах оказывается константой в сравнениях различных эукариот и также близок к уровню селективного ограничения в интронах (Shabalina S.A. and Kondrashov A.S., 1999; Bergman С.М. and Kreitman M., 2001).
Распределение частоты филогенетических следов в C.elegans и C.briggsae имеет как похожие места, так и различия при сравнении с аналогичным распределением для геномов мыши и человека (Shabalina S.A. et al., 2001). В Caenorhabditis наибольшая частота филогенетических следов расположена в 3' нетранслируемых областях, но вне 5' нетранслируемой области. Частота филогенетических следов падает за 3' нетранслируемой областью, однако, является почти константой внутри и вне 5' нетранслируемых областях. Сохранение постоянной частоты филогенетических следов с увеличением расстояния от 5' начала гена в 5'
нетранслируемой области может означать, что важные позиции для 5' регуляции являются вариабельными и, тем самым, уникальными в межгенных интервалах. В противоположность, в 3' нетранслируемых областях позиции могут быть более консервативны для 3' регуляции. В сравнении межгенных интервалов мыши и человека основная часть распределения находится внутри трансляционных границ как для 3' так и для 5' нетранслируемых областей, и падает вне обоих типов нетранслируемых областей (Shabalina S.A. et al., 2001). Это можно объяснить тем, что регуляторные элементы расположены около трансляционных границ в 5' нетранслируемых областях чаще у млекопитающих, чем у нематод, потенциально влияя на возникновение фундаментальных различий в работе транскрипционной и трансляционной регуляции в силу важности точных позиций регуляторных элементов в этих двух группах.
В то время, как абсолютное расположение филогенетических следов различается, профиль относительного расположения одинаков при сравнении многих пар организмов. Похожее плотное расположение филогенетических следов наблюдается при сравнении D.melanogaster и D.virilis (Bergman С.М. and Kreitman М., 2001). Объяснение этому наблюдению может дать белок-белок взаимодействие, когда множественным белкам нужно взаимодействовать во время связывания энхансера (Груздева Н.М. и Куллыев А.П., 2002). Вторая гипотеза состоит в том, что более плотное распределение филогенетических следов может отражать структуру ДНК более высокого порядка, например, регуляцию, совершаемую в открытых местах ДНК. На данный момент существует много противоречивых данных, из-за которых затруднительно ответить на вопрос: "Соответствует ли более плотное распределение филогенетических следов расположению известных структурных элементов, подобных нуклеосомам?" Так что эта гипотеза не может быть опровергнута одним лишь сравнением геномов. Более плотное распределение филогенетических следов может также отражать консервацию сайтов, вовлеченных в образование вторичной структуры РНК типа псевдоузлов и элементов петля-шпилька Y-типа (Le S.Y. and Maizel J.V, 1997).
Были отобраны 100 пар межгенных интервалов, находящих в 37 различных участках 12 человеческих и 12 мышиных хромосом. Все последовательности, были выбраны из базы данных GenBank. Гены определялись по аннотациям, доступным в 80% случаев, или по выравниванию геномных последовательностей с мРНКой, с известной аннотацией (20%).
Общая длина выравненных последовательностей составила 1 334 735 (в человеке) и 1 080 999 (в мыши) нуклеотидов. В соответствии с аннотацией мРНК, взятой из базы данных GenBank, число транскрибируемых
нуклеотидов в полном межгенном интервале в выборке составило от 2 300 до 13 ООО для человека и от 2 200 до 11 ООО для мыши.
Филогенетические следы покрывают 33% длины межгенных интервалов у мыши и 27% - у человека. Длины филогенетических следов (/, длина более короткого из двух выравненных сегментов) находятся в интервале от 30 до 1 483 нуклеотидов со средним значением 134 и 135 нуклеотидов и медианой 103 и 104 нуклеотидов для последовательностей мыши и человека соответственно. Более короткие функционально значимые сегменты, вероятно, также существуют, однако их межвидовое сходство статистически не значимо. Длины филогенетических следов согласуются с их участием в ДНК-белок взаимодействии. Расстояния между филогенетическими следами меняются от 0 до 19 972 нуклеотидов для мыши и от 0 до 20 919 нуклеотидов - для человека со средними значениями 268 и 362 нуклеотидов, медианой 72 и 90 нуклеотидов соответственно. Длины филогенетических следов не коррелируют с расстояниями до следующего филогенетического следа.
Таблица 1. Сходство и давление отбора в отдельных филогенетических следах и межгенных интервалах (в скобках - стандартное отклонение)._
Геном мыши Геном человека
Уровень Селективное Уровень Селективное
сходства ограничение сходства ограничение
(%) (%) (%) (%)
Филогенетические следы
Среднее 67,7 (7,9) 55,7(10,9) 66,9 (7,8) 54,9 (10,7)
значение
Медиана 67,0 55,2 66,0 54,5
Разброс 50-96 25,1 -95,3 47-95 25,3 -93,5
Межгенные интервалы
Среднее 46,8 (12,6) 28,4(16,9) 44,9 (12,0) 25,9 (16,2)
значение
Медиана 44 24,7 42 22,2
Разброс 28-78 3,2-70,7 26-74 1,1-64,6
Таблица 1 показывает данные по уровню сходства и селективному ограничению для отдельных филогенетических следов и межгенных интервалов. Для межгенного интервала длиной Ь, имеющего п филогенетических следов с длинами /[,..., /п, и сходствами 5],..., средневзвешенный уровень сходства определен как Е /,£,//,, а средневзвешенное селективное ограничение - как I /¡сД. Средневзвешенное селективное ограничение по всем межгенным интервалам составляет 19% для мыши и 15,4% для человека. Это ниже, чем среднее значение, указанное
в таблице, так как более короткие межгенные интервалы обычно имеют более высокую долю нуклеотидов, находящихся под селективным ограничением (рис. 4).
• V i
1000 1Û0ÛÛ Длина меисенного интервала
1000 10000 Длина меженного интервала
•• •• " . „• 'i •'
Длина межгенного интервала
Рисунок 4. Селективное ограничение в полных межгенных интервалах с различными длинами в геномах мыши (а, в) и человека (б, г). Показана доля нуклеотидов, находящихся под селективным ограничением в межгенном интервале (С) и абсолютное число таких нуклеотидов (./V). См. текст для определения С.
1 SOI 1031 1SÛ1 root 2501 M?t J»t «оот *fC1 МО» ' ¡01 1001 »SOI 200) 3501 KOI 1501 4001 <50! MOI Позиция от 5' конца мехгенного интервала Позиция от 3' конца межгенного интервала
Рисунок 5. Сходство (б) межу геномами мыши и человека на 51 (а) и З1 (б) концах длинных (с длинной более 10 ООО нуклеотидов) межгенных
интервалов генома мыши. Сходство определяется как число совпадений в паре выравненных последовательностей, деленное на длину более короткой последовательности. Распределение для межгенных интервалов генома человека имеет аналогичную картину (не показано).
Распределение сходства для областей, граничащих с 5' началом генов, и для областей, граничащих с 3' концом генов длинных межгенных интервалов (с длиной более 10 ООО нуклеотидов) представлено на рисунке 5. Селективное ограничение более заметно на концах межгенных интервалов, где функционирование мРНК определенно вносит свой вклад. Однако, среднее число нуклеотидов, находящихся под селективным ограничением, в транскрибирующихся участках геномов млекопитающих значительно выше в 5'- и З'-нетранслируемых областях мРНК (табл. 2). К тому же в межгенных интервалах имеются участки, расположенные на значительном расстоянии от границ межгенных интервалов, в которых уровень сходства превышает среднее на 10%. Таким образом, нетранскрибирующиеся части межгенных интервалов также функционально значимы.
Таблица 2. Давление отбора в 5' и З'-некодирующих областях мРНК и нетранскрибирующихся участках межгенных интервалов._
Область Геном мыши Геном человека
Селективное Среднее число Селективное Среднее число
ограничение нуклеотидов ограничение нуклеотидов,
(%) под (%) под
ограничением ограничением
5' мРНК 28,5 455 33,8 329
3' мРНК 45,3 318 23,7 295
Нетранскрибируемая 15,8 1006 13,6 1301
Среднее число нуклеотидов, находящихся под селективным ограничением в межгенном интервале, С = Е /,с„ по определению одинаково для обоих геномов и составляет 1 952. Оно значительно выше, чем среднее число нуклеотидов для участков, кодирующих белок. В самом деле, среднее число аминокислот белка составляет 500 в геномах млекопитающих, и примерно две трети кодирующих нуклеотидов находятся под ограничением (Makalowski W. and Boguski M.S., 1998), тем самым, число кодирующих нуклеотидов, находящихся под селективным ограничением, составляет примерно 1 ООО. Поскольку сравнение С. elegans и С. briggsae показало, что С равно 500 (Shabalina S.A. and Kondrashov A.S., 1999) или 600 (Kent W.J. and Zahler A.M., 2000), межгенные интервалы млекопитающих как минимум в три раза функционально сложнее, чем у нематод.
Выводы
1. Разработанный автором эффективный (требующий время работы порядка NloglogN и линейной памяти) алгоритм построения выравнивания нуклеотидных последовательностей реализован в интерактивной программе "Оуэн" для ряда наиболее распространенных компьютеров и операционных систем.
2. С помощью программы "Оуэн" проведен анализ закономерностей межвидовой консервации гомологических межгенных интервалов геномов эукариот. Таким образом, на практике показана способность алгоритма строить выравнивания геномных участков с умеренным и слабым сходством.
3. Кластеризация выявленных консервативных участков и проведенный анализ показывают, что консервативные участки в межгенных интервалах являются функциональными элементами.
4. Полученный уровень функционально значимой ДНК, расположенной в межгенных интервалах (15 - 19% в межгенном интервале или 11 - 15% в геноме), сравним с долей кодирующей ДНК (26%) у нематод и значительно превышает ее у млекопитающих (5%).
5. Функциональные элементы в межгенных интервалах нематод формируют кластерные комплексы.
6. Доля нетранскибируемой ДНК для нематод составляет 26%, доля 5' и З'-нетранслируемых участков суммарно - 21%, кодирующая ДНК - 27%, интроны - 26%.
Список научных работ, опубликованных по теме диссертации
1. Ogurtsov A.Y., Elkin Y.E. and Shabalina S.A. Calculation of contributions of individual monomelic units into biopolymer functioning. J. Theor. Biol. 1993. V. 164. P. 395-401.
2. Nazipova N.N., Shabalina S.A., Ogurtsov A.Y., Kondrashov A.S., Roytbeig M.A., Buryakov G.V. and Vernoslov S.E. SAMSON, a program package for the analysis of biopolymer primary structures. CABIOS. 1995. V. 11. P. 423-426.
3. Borisyk R., Casolino M., Depascale M.P., Morselli A., Picozza P., Ogurtsov A., Ricci M., Sparvoli R. Gamma-Ray Energy Determination Using Neural-Network Algorithm for an Imaging Silicon Calorimeter. NUCLEAR INSTRUMENTS & METHODS IN PHYSICS RESEARCH SECTION A-ACCELERATOR SPECTROMETERS DETECTORS AND ASSOCIATED EQUIPMENT. 1996. V. 381, Iss. 2-3. P. 512-516.
4. Shabalina S.A., Ogurtsov A.Y., Kondrashov V.A., Kondrashov A.S. Selective constraint in intergenic regions of human and mouse genomes. Trends Genet. 2001. V. 7. P. 373-376.
5. Webb C.T., Shabalina S.A., Ogurtsov A.Y., Kondrashov A.S. Analysis of similarity within 142 pairs of orthologous intergenic regions of Caenorhabditis elegans and Caenorhabditis briggsae. Nucl. Acids Res. 2002. V. 30. P. 1233-1239.
6. Roytberg M.A., Ogurtsov A.Y., Shabalina S.A. and Kondrashov A.S. A hierarchical approach to aligning collinear regions of genomes. Bioinformatics. 2002. V. 18. P. 1673-1680.
7. Ogurtsov A. Yu., Roytberg M. A., Shabalina S. A. and Kondrashov A. S. OWEN: aligning long collinear regions of genomes. Bioinformatics. 2002. V. 18. P. 1703-174.
8. Огурцов А.Ю. Свойства последовательностей, участвующих в инсерционно-делеционном мутагенезе у грызунов. Биофизика. 2003. Т. 48. (принято в печать).
9. Shabalina S.A., Ogurtsov A.Y., Lipman D.J. and Kondrasov A.S. Patterns in interspecies similarity correlate with nucleotide composition in mammalian 3'UTRs. Nucl. Acids Res. 2003. V. 31. (принято в печать).
10. Огурцов А.Ю. Протокол автоматического выравнивания геномных последовательностей при помощи программы OWEN. Биофизика. 2003. Т. 48. (принято в печать).
11. Ogurtsov A. Y., Sunyaev S. and Kondrashov A.S. Indel-based Evolutionary Distance and Mouse-human Divergence. Genome Research. 2003. V. 13. (принято в печать).
12. Kondrashov F.A., Ogurtsov A.Y. and Kondrashov A.S. Bioinformatical assay of human gene morbidity. The American Journal of Human Genetics. 2003. V. 73. (принято в печать).
Содержание диссертации, кандидата физико-математических наук, Огурцов, Алексей Юрьевич
ВВЕДЕНИЕ
ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ
1.1. Сравнительный анализ геномов (сравнительная геномика)
1.2. Информационные ресурсы геномных баз данных
1.3. Функциональные элементы генома
1.4. Основные вопросы, решаемые сравнительной геномикой
1.5. Задача поиска гомологий
1.6. Простейшие алгоритмы поиска гомологий
1.6.1. Точечные матрицы гомологии
1.6.2. Поиск общего слова
1.6.3. Метод /-граммного разложения
1.6.4. Позиционные деревья
1.7. Задача выравнивания
1.7.1. Метод динамического программирования
1.7.2. Локальное выравнивание
1.8. Методы построения выравниваний, используемые в современном программном обеспечении
1.9. Оценка статистической значимости локальных сходств
ГЛАВА 2. Иерархический подход к построению цепочек локальных сходств
2.1. Неформальный обзор подхода к разрешению конфликтов
2.2. Обозначения
2.2.1. Локальные сходства
2.2.2. Цепочка локальных сходств
2.2.3. Качество локального сходства
2.2.4. Достоверность индивидуального сходства и цепочки сходств
2.2.5. Сравнение множеств сходств
2.2.6. Основная цепочка
2.3. Алгоритмы
2.3.1. Алгоритм Fractal
2.3.2. Краткий обзор алгоритмов Chain и ChainBasic
2.4. Примеры
Введение Диссертация по биологии, на тему "Исследование локальных сходств геномов эукариот"
После того, как в 1978г. появились методы быстрого определения последовательностей ДНК, объем известных последовательностей растет экспоненциально. В 1982г. была создана единая база данных, куда поступают все опубликованные последовательности. В 1994г., когда общая длина известных последовательностей составляла уже десятки миллионов нуклеотидов, впервые были расшифрованы два полных генома клеточных организмов - бактерий Haemophilus influenzae и Mycoplasma genitalium. На сегодняшний день, наряду с геномами десятков бактерий, расшифрованы геномы нескольких многоклеточных эукариот, например, нематоды Caenorhabditis elegans, цветковых растений резуховидки (Arabidopsis thaliana) и риса (Oryza sativa L.), дрозофилы (Drosophila melanogaster), комара (Anopheles gampiat), рыбы фугу (Takifugu rubripes), человека (Homo sapiens) и мыши (Mus musculus). Общая длина хранящихся в базе данных "GenBank" последовательностей превышает 100 миллиардов нуклеотидов.
Аннотация большей части геномных последовательностей, публикуемых в базе данных GenBank, содержит информацию о генах (их экзон - интронной структуре и нетранслируемых участках), функциональных областях и повторах. Аннотация последовательностей проводится в основном с использованием компьютерных методов сравнения последовательностей и предсказания кодирующих областей. Экспрессия генов обеспечивается многочисленными регуляторными элементами, плотность нуклеотидных последовательностей которых в геномах эукариот превышает плотность кодирующих участков. Описание и разграничение функциональных элементов требует как проведения большого количества трудоемких экспериментов, так и разработки алгоритмов предсказания, создания специализированного программного обеспечения, помогающего направить поиск на наиболее вероятные участки генома.
Таким образом, компьютерный анализ геномной информации является одним из перспективных направлений, хотя и сопряжен со многими трудностями. Хотя символьная последовательность в четырехбуквенном алфавите является относительно простым объектом (по сравнению, например, с пространственной структурой белка), изучение даже небольшого числа не очень длинных последовательностей далеко не тривиально. Например, одновременное выравнивание 100 последовательностей длиной 1000 каждая требует заполнения 100-мерного куба со стороной 1000, содержащего Ю300 ячеек, что, естественно невозможно вычислительно. Несмотря на очень большое количество работ, отсчет которым можно вести с выхода в 1970г. пионерской работы С.Б. Нидлемана и С.Д. Вунша (Needleman S.B. and Wunsch C.D., 1970), нерешенных проблем в анализе последовательностей все еще больше, чем решенных.
Анализ эукариотических геномов сопряжен с дополнительными проблемами. У прокариот около 90% ДНК кодирует белки. Соответственно, в значительной степени изучение прокариотических геномов сводится к изучению наборов относительно коротких белковых последовательностей. Напротив, большая часть геномов многоклеточных эукариот (от 70% у растений до 98% у млекопитающих) белки не кодируют. Большая часть некодирующих последовательностей, видимо, не несет никакой функции. Однако, значительная ее доля (по оценкам, полученным в этой диссертационной работе - более 10%) функционально значима, и видимо, играет не меньшую роль в жизни организмов, чем белки. При этом изучение важных некодирующих последовательностей затруднено тем, что их функция не описывается простыми правилами, а межвидовое сходство ограничивается коротким консенсусом. Даже просто разграничить важные некодирующие последовательности от неважных - трудная задача.
Таким образом, на сегодня мы не можем предсказать a priori, как должны выглядеть функционально значимые участки некодирующей ДНК. В такой ситуации может помочь сравнительный метод: не зная, какие последовательности важны в отдельно взятом геноме, мы все же можем предположить, что важные гомологичные последовательности в геномах близких видов будут похожи друг на друга. По крайней мере, это относится к последовательностям, ответственным за межвидовое сходство.
Напротив, те, по-видимому относительно немногочисленные, участки некодирующей ДНК, которые отвечают за межвидовые различия, могут у близких видов различаться даже больше, чем бессмысленные (случайные) последовательности. С этой точки зрения представляется чрезвычайно интересным сравнение геномов человека и шимпанзе, так как средний уровень сходства между этими видами составляет 98%. В самое близкое время, после публикации генома шимпанзе, удастся выяснить, не существуют ли короткие участки ДНК, которые разошлись гораздо больше, чем на 2%, и, тем самым, ответственны за различия между человеком и шимпанзе.
Диссертация посвящена двум аспектам сравнения геномов. В главе 1 предложен новый подход к выравниванию длинных гомологичных последовательностей, в которых уровень сходства резко неравномерен - короткие консервативные участки чередуются с последовательностями, всякое сходство между которыми утрачено. В этой диссертации предлагается простой, эффективный, иерархический алгоритм для построения цепочек гомологичных консервативных последовательностей. Алгоритм реализован в виде интерактивной программы "Оуэн" (названной в честь английского зоолога, предложившего в 1848 году понятие гомология (Owen R., 1848)).
Главы 2 и 3 посвящены применению этого алгоритма и программы "Оуэн" к сравнительному анализу геномов. В главе 3 проведен анализ пары человек-мышь, а в главе 2 рассмотрены две относительно близкие нематоды - Caenorhabditis elegans и C.briggsae. В обоих случаях главный вывод состоит в том, что доля функционально важной некодирующей ДНК составляет, по меньшей мере, 10%, то есть значительно больше, чем считалось раньше. Для сравнения, белок-кодирующие последовательности ДНК составляют до 5% генома человека, интроны - 15%, межгенные интервалы - 80%.
Библиография Диссертация по биологии, кандидата физико-математических наук, Огурцов, Алексей Юрьевич, Пущино
1. Албертс Б., Брей Д., Льюис Дж., Рэфф М., Роберте К., Уотсон Дж. Молекулярная биология клетки. 2-е изд. М:Мир. 1994. Т. 1.
2. Александров А.А., Александров Н.Н., Бородовский М.Ю., Каламбет Ю.А., Кистер А.З., Миронов А.А., Певзнер П.А. и Шепелев В.А. Компьютерный анализ генетических текстов. М. .Наука. 1990.
3. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир. 1979.
4. Волькенпггейн М.В. Вероятности трансверсий транзиции. Мол.биол. 1976. №4. С. 737-741.
5. Воронина А.С. Трансляционная регуляция в раннем развитии. Успехи биологической химии. 2002. Т. 42. М. 139-160.
6. Груздева Н.М., Куллыев А.П. Инсуляторы Drosophila melanogaster: структура, функции. Успехи биологической химии. 2002. Т. 42. С. 161-176.
7. Гусев М.В. и Минеева Л.А. Микробиология. М.:Изд-во Моск. ун-та. 1992.
8. Кимура М. Молекулярная эволюция: теория нейтральности. М., 1985.
9. Кнут Д.Э. Искусство программирования. Сортировка и поиск. 2-е изд. С,-П.:Издательский дом "Вильяме". 2000. Т. 3.
10. Миронов А.А. и Александров Н.Н. Быстрый метод поиска гомологии нуклеотидных последовательностей. Биофизика. 1988. Т. 2. С. 229-232.
11. Огурцов А.Ю. Протокол автоматического выравнивания геномных последовательностей при помощи программы OWEN. Биофизика, (принято в печать).
12. Орлов С.В., Диже Э.Б., Кутейкин К.В., Курышев В.Ю., Перевозчиков А.П. Функциональная активность GCC-элемента, входящего в состав регуляторных районов ряда генов млекопитающих. Доклады Академии Наук. 1999. № 2. С. 262-265.
13. Ратнер В.А., Жарких А.А., Колчанов Н.А., Родин С.Н., Соловьев В., Шамин В. Проблемы теории молекулярной эволюции. Новосибирск:Наука. 1985.
14. Родионов А.В. Эволюция блочной организации хромосом животных и растений. Цитология. 1999. Т. 41. С. 1079.
15. Ahlquist P., Strauss E.G., Rice С.М., Strauss J.H., Haseloff J. and Zimmern D. Sindbis virus proteins nsPl and nsP2 contain homology to nonstructural proteins from several RNA plant viruses. J. Virol. 1985. V. 53. P. 536-542.
16. Aho A.V., Hopcroft J.E. and Ulman J.D. (1974). The Design and Analysis of Computer Algorithms, Addison-Wesley, Reading, Massachusetts.
17. Altschul S.F. and Gish W. Local alignment statistics. Methods Enzymol. 1996. V. 266. P. 460-480.
18. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J.H., Zhang Z., Miller W. and Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucl. Acids Res. 1997. V. 25. P. 3389-3402.
19. Argos P., Kamer G., Nicklin MJ. and Wimmer E. Similarity in gene organization and homology between proteins of animal picornaviruses and a plant comovirus suggest common ancestry of these virus families. Nucleic Acids Res. 1984. V 12. P. 7251-7267.
20. Arslan A.N., Egecioglu O. and Pevzner P.A. A new approach to sequence comparison: normalized sequence alignment. Bioinformatics. 2001. V. 17. P. 327-337.
21. Baer R., Bankier A.T., Biggin M.D., Deininger P.L., Farrell P.J., Gibson T.J., Hatfull G., Hudson G.S., Satchwell S.C., Seguin C. et al. DNA sequence and expression of the B95-8 Epstein-Barr virus genome. Nature. 1984. V. 310. P. 207-211.
22. Bagheri-Fam S., Ferraz C., Demaille J., Scherer G. and Pfeifer D. Comparative genomics of the SOX9 region in human and Fugu rubripes: Conservation of short regulatory sequence elements within large intergenic regions. Genomics. 2001. V. 78. P. 73-82.
23. Batzoglou S., Pachter L., Mesirov J.P., Berger B. and Lander E.S. Human and mouse gene structure: comparative analysis and application to exon prediction. Genome Res. 2000. V. 10. P. 950-958.
24. Bergman C.M. and Kreitman M. Analysis of conserved noncoding DNA in Drosophila reveals similar structural and evolutionary properties of intergenic and intronic sequences. Genome Res. 2001. V. 11. P. 1335-1345.
25. Blumenthal T. Trans-splicing and polycistronic transcription in Caenorhabditis elegans. Trends Genet. 1995. V. 11. P. 132-136.
26. Britten R.J. Rates of DNA sequence evolution differ between taxonomic groups. Science. 1986. V. 231. P. 1393-1398.
27. Brosius J. Genomes were forged by massive bombardments with retroelements and retrosequences. Genetica. 1999. V. 107. P. 209-238.
28. Brown A.M. and Lemke G. Multiple regulatory elements control transcription of the peripheral myelin protein zero gene. J. Biol Chem. 1997. V. 272. P. 2893928947.
29. Burge C. and Karlin S. Prediction of complete gene structures in human genomic DNA. J. Mol. Biol 1997. V. 268. P. 78-94.
30. Chao K.M., Zhang J.H., Ostell J. and Miller W. A local alignment tool for very long DNA sequences. Comput. Applic. Biosci. 1995. V. 11. P. 147-153.
31. Clark A.G. The search for meaning in noncoding DNA. Genome Res. 2001. V. 11. P. 1319-1320.
32. Delcher A.L., Phillippy A., Carlton J., Salzberg S.L. Fast algorithms for large-scale genome alignment and comparison. Nucleic Acids Res. 2002. V. 30. P. 2478-2483.
33. Deutsch M. and Long M. Intron-exon structures of eukaryotic model organisms. Nucleic Acids Res. 1999. V. 27. P. 3219-3228.
34. Dickinson W.J. The evolution of regulatory genes and patterns in Drosophila. Evol. Biol. 1991. V. 25. P. 127-173.
35. Durbin R., Eddy D., Krogh A. and Mitchison G. Pairwise alignment. Biological sequence analyses. Probabilistic models of proteins and nucleic acids. Cambridge, UK:Cambridge University Press. 1998. P. 12-45.
36. Eckardt N.A. Everything in its place: Conservation of gene order among distantly related plant species. Plant Cell 2001. V. 13. P. 723-725.
37. Eppstein D., Galil Z., Giancarlo R. and Italiano G.F. Sparse dynamic programming I: linear cost functions. Journal of the ACM. 1992. V. 39. P. 519-545.
38. Erdmann V.A., Barciszewska M.Z., Szymanski M., Hochberg A., de Groot N. and Barciszewski J. The non-coding RNAs as riboregulators. Nucleic Acids Res. 2001. V. 29. P. 189-193.
39. Erdmann V.A., Szymanski M., Hochberg A., Groot N. and Barciszewski J. Non-coding, mRNA-like RNAs database Y2K. Nucleic Acids Res. 2000 V. 28. P. 197200.
40. Ewing B. and Green P. Analysis of expressed sequence tags indicates 35000 human genes. Nat. Genet. 2000. V. 25. P. 232-234.
41. Fleischmann R.D., Adams M.D., White O., Clayton R.A., Kirkness E.F., Kerlavage A.R., Bull C.J., Tomb J-F., Dougherty B.A., Merrick J.M. et al Wholegenome random sequencing and assembly of Haemophilus influenzae Rd. Science. 1995. V. 269. P. 496-512.
42. Gibbs A.J. and Mclntyre G.A. A method for assessing the size of a protein from its composition: its use in evaluating data on the size of the protein subunits of plant virus particles. J. Gen. Virol. 1970. V. 9. P. 51-67.
43. Goad W.B. and Kanehisa M.I. Pattern recognition in nucleic acid sequences. I. A general method for finding local homologies and symmetries. Nucleic Acids Res. 1982. V. 10. P. 247-263.
44. Gu X. and Li W.H. A model for the correlation of mutation rate with GC content and the origin of GC-rich isochores. J. Mol. Evol. 1994. V. 38. P. 468-475.
45. Hannenhalli S. and Pevzner P.A. Transforming cabbage into turnip: Polynomial algorithm for sorting signed permutations by reversals. Journal of the ACM. 1999. V. 46. P. 1-27.
46. Hardison R.C. Conserved noncoding sequences are reliable guides to regulatory elements. Trends Genet. 2000. V. 16. P. 369-372.
47. Hardison R.C., Oeltjen J. and Miller W. Long human-mouse sequence alignments reveal novel regulatory elements: a reason to sequence the mouse genome. Genome Res. 1997. V. 7. P. 959-966.
48. Huang Т., Kuersten S., Deshpande A.M., Spieth J., MacMorris M. and Blumenthal T. Intercistronic region required for polycistronic Pre-mRNA processing in Caenorhabditis elegans. Mol. Cell. Biol. 2001. V. 21. P. 1111-1120.
49. International Human Genome Sequencing Consortium Initial sequencing and analysis of the human genome. Nature. 2001. V. 409. P. 860-921.
50. Jareborg N., Birney E. and Durbin R. Comparative analysis of noncoding regions of 77 orthologous mouse and human gene pairs. Genome Res. 1999. V. 9. P. 815-824.
51. Karlin S. and Altschul S.F. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci. USA. 1990. V. 87. P. 2264-2268.
52. Karlin S. and Altschul S.F. Applications and statistics for multiple high-scoring segments in molecular sequences. Proc. Natl Acad. Sci. USA. 1993. V. 90. P. 5873-5877.
53. Karlin S., Ghandour G., Ost F., Tavare S., Korn L.J. New approaches for computer analysis of nucleic acid sequences. Proc. Natl. Acad. Sci. USA. 1983. V. 18. P. 5660-5664.
54. Kent W.J. and Zahler A.M. Conservation, regulation, synteny, and introns in large-scale C.briggsae C.elegans genomic alignment. Genome Res. 2000. V. 10. P. 1115-1125.
55. Kidwell M.G. and Lisch D.R. Perspective: transposable elements, parasitic DNA, and genome evolution. Evolution. 2001. V. 55. P. 1-24.
56. Kimura M. Preponderance of synonymous changes as evidence for the neutral theory of molecular evolution. Nature. 1977. V. 267. P. 275-276.
57. Kondrashov A.S. and Crow J.F. A molecular approach to estimating the human deleterious mutation rate. Hum. Mutat. 1993. V. 2. P. 229-234.
58. Kondrashov A.S. and Shabalina S.A. Classification of common conserved sequences in mammalian intergenic regions. Hum. Mol. Genet. 2002. V. 11. P. 669-674.
59. Koop B.F. Human and rodent DNA sequence comparisons: a mosaic model of genomic evolution. Trends Genet. 1995. V. 11. P. 367-371.
60. Korn L.J., Queen C.L. and Wegman M.N. Computer analysis of nucleic acid regulatory sequences. Proc. Natl. Acad. Sci. USA. 1977. V. 74. P. 4401-4405.
61. Kozak M. An analysis of vertebrate messenger RNA sequences: intimations of translational control./. Cell Biol. 1991. V. 115. P. 887-903.
62. Kumar S., Gadagkar S.R., Filipski A. and Gu X. Determination of the number of conserved chromosomal segments between species. Genetics. 2001 V. 157. P. 13871395.
63. Le S.Y. and Maizel J.V. A common RNA structural motif involved in the internal initiation of translation of cellular mRNAs. Nucleic Acids Res. 1997. V. 25. P. 362-369.
64. Levy S., Hannenhalli S. and Workman C. Enrichment of regulatory signals in conserved non-coding genomic sequence. Bioinformatics. 2001. V. 17. P. 871-877.
65. Lipman DJ. and Pearson W.R. Rapid and sensitive protein similarity searches. Science. 1985. V. 227. P. 1435-1441.
66. Mallon A.M., Platzer M., Bate R., Gloeckner G., Botcherby M.R., Nordsiek G., Strivens M.A., Kioschis P., Dangel A., Cunningham D. et al. Comparative genome sequence analysis of the Bpa/Str region in mouse and man. Genome Res. 2000. V. 10. P. 758-775.
67. Makalowski W. Genomic scrap yard: how genomes utilize all that junk. Gene. 2000. V. 259. P. 61-67.
68. Makalowski W. and Boguski M.S. Evolutionary parameters of the transcribed mammalian genome: an analysis of 2,820 orthologous rodent and human sequences. Proc. Natl. Acad. Set USA. 1998. V. 95. P. 9407-9412.
69. Martinez H.M. An efficient method for finding repeats in molecular sequences. Nucleic Acids Res. 1983. V. 11. P. 4629-4634.
70. Maxam A.M. and Gilbert W. A new method for sequencing DNA. Proc. Natl. Acad. Sci. USA. 1977. V. 74. P. 560-564.
71. McGeoch DJ. and Davison A.J. DNA sequence of the herpes simplex virus type 1 gene encoding glycoprotein gH, and identification of homologues in the genomesof varicella-zoster virus and Epstein-Barr virus. Nucleic Acids Res. 1986. V. 14. P. 4281-4292.
72. Melhorn K. and Nahler S. Bounded ordered dictionaries in 0(loglog N). time and 0(n). space. Inf. Proc. Lett. 1990. V. 35. P. 183-189.
73. Miller W. Comparison of genomic DNA sequences: solved and unsolved problems. Bioinformatics. 2001. V. 17. P. 391-397.
74. Mironov A.A., Alexandrov N.N., Bogodarova N.Yu., Grigoijev A., Lebedev V.F., Lunovskaya L.V., Truchan M.E. and Pevzner P.A. DNASUN: a package of computer programs for the biotechnology laboratory. Comput. Appl. Biosci. 1995. V. 11. P. 331-335.
75. Morgenstern В., Freeh K., Dress A. and Werner T. DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics. 1998. V. 14. P. 290-294.
76. Mott R. and Tribe R. Approximate statistics of gapped alignments. J. Comput. Biol. 1999. V. 6 P. 91-112.
77. Mott R. Accurate formula for p-values of gapped local sequence and profile alignments. J. Mol. Biol 2000. V. 300. P. 649-659.
78. Mullikin J.C., Hunt S.E., Cole C.G., Mortimore B.J., Rice C.M., Burton J., Matthews L.H., Pavitt R., Plumb R.W., Sims S.K. et al An SNP map of human chromosome 22. Nature. 2000. V. 407. P. 516-520.
79. Nazipova N.N., Shabalina S.A., Ogurtsov A.Yu., Kondrashov A.S., Roytberg M.A., Buryakov G.V. and Vernoslov S.E. SAMSON: a software package for the biopolymer primary structure analysis. Comput. Appl. Biosci. 1995. V. 11. P. 423-426.
80. Needleman S.B. and Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol Biol 1970. V. 48. P. 443-453.
81. Ogurtsov A.Y., Roytberg M.A., Shabalina S.A. and Kondrashov A.S. OWEN: aligning long collinear regions of genomes. Bioinformatics. 2002. V. 18. P. 1703-1704.
82. Owen R. On the Archetype and Homologies of the Vertebrate Skeleton. London:Van Voorst 1848.
83. RajBhandary U.L. More surprises in translation: initiation without the initiator tRNA. Proc. Natl Acad. Sci. USA. 2000. V. 97. P. 1325-1327.
84. Sanger F., Coulson A.R., Hong G.F., Hill D.F. and Petersen G.B. Nucleotide sequence of bacteriophage lambda DNA. J. Mol Biol. 1982. V. 162. P. 729-773.
85. Sanger F., Nicklen S. and Coulson A.R. DNA sequencing with chain-terminating inhibitors. Proc. Natl. Acad. Sci. USA. 1977. V. 74. P. 5463-5467.
86. Shabalina S.A. and Kondrashov A.S. Pattern of selective constraint in C.elegans and C.briggsae genomes. Genet. Res. 1999. V. 74. P. 23-30.
87. Shabalina S.A., Ogurtsov A.Y., Kondrashov V.A. and Kondrashov A.S. Selective constraint in intergenic regions of human and mouse genomes. Trends in Genet. 2001. V. 17. P. 373-376.
88. Shabalina S.A., Yurieva O.V. and Kondrashov A.S. On the frequencies of nucleotides and nucleotide substitutions in conservative regulatory DNA sequences. J. Theor. Biol 1991. V. 149. P. 43-54.
89. Schwartz S., Zhang Z., Frazer K.A., Smit A., Riemer C., Bouck J., Gibbs R., Hardison R. and Miller W. PipMaker A Web server for aligning two genomic DNA sequences. Genome Res. 2000. V. 10. P. 577-586.
90. Smith T.F. and Waterman M.S. Identification of common molecular subsequences. J. Mol Biol 1981. V. 147. P. 195-197.
91. Tatusov R.L., Mushegian A.R., Bork P., Brown N.P., Hayes W.S., Borodovsky M., Rudd K.E. and Koonin E.V. Metabolism and evolution of Haemophilia influenzae deduced from a whole-genome comparison with Escherichia coli. Curr. Biol 1996. V. 6. P. 279-291.
92. Tautz D. Evolution of transcriptional regulation. Curr. Opin. Genet. Dev. 2000. V. 10. P. 575-579.
93. The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 1998. V. 282. P. 2012-2018.
94. Venter J.C., Smith H.O. and Hood L. A new strategy for genome sequencing. Nature. 1996. V. 381. P. 364-366.
95. Venkatesh В., Gilligan P. and Brenner S. Fugu: a compact vertebrate reference genome. FEBS Lett. 2000. V. 476. P. 3-7.
96. Wasserman W.W., Palumbo M., Thompson W., Fickett J.W. and Lawrence C.E. Human-mouse genome comparisons to locate regulatory sites. Nature Genet. 2000. V. 26. P. 225-228.
97. Waterman M.S. Sequence alignment in the neighborhood of optimum with general application to dynamic programming. Proc. Nat. Acad. Sci. USA. 1983. V. 80. P. 3123-3124.
98. Waterman M.S., Smith T.F. and Beyer W.A. Some biological sequence metrics. Adv. Math. 1976. V. 20. P. 367-387.
99. Wolf Y.I., Rogozin I.B., Kondrashov A.S. and Koonin E.V. Genome alignment, evolution of prokaryotic genome organization, and prediction of gene function using genomic context. Genome Research. 2001. V. 11. P. 356-372.
100. Wong G.K.S., Passey D.A., Huang Y.Z., Yang Z.Y. and Yu J. Is "junk" DNA mostly intron DNA? Genome Res. 2000. V. 10. P. 1672-1678.
101. Zafar N., Mazumder R. and Seto D. Comparisons of gene colinearity in genomes using Gene0rder2.0. Trends. Biochem. Sci. 2001. V. 26. P. 514-516.
102. Zharkikh A.A., Rzhetsky A.Yu., Morosov P.S., Sitnikova T.L. and Krushkal J.S. VOSTORG: a package of microcomputer programs for sequence analysis and construction of phylogenetic trees. Gene. 1991. V. 101. P. 251-254.
103. Zhang Z., Berman P and Miller W. Alignments without low-scoring regions. J. Comput. Biol. 1998. V. 5. P. 197-210.
104. Zhang Z., Raghavachari В., Hardison R.C. and Miller W. Chaining multiple-alignment blocks. J. Comput. Biol. 1994. V. 1. P. 217-226.
- Огурцов, Алексей Юрьевич
- кандидата физико-математических наук
- Пущино, 2003
- ВАК 03.00.02
- Молекулярно-генетический анализ генома животных и человека с использованием ДНК-маркеров
- Вычислительные методы молекулярной биологии и их применение к анализу геномов
- Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов
- Эволюция и распространение мобильных генетических элементов в геномах представителей отряда Lepidoptera
- Применение методов сравнительной геномики к анализу геномов прокариот и эукариот