Бесплатный автореферат и диссертация по биологии на тему
Вычислительные методы молекулярной биологии и их применение к анализу геномов
ВАК РФ 03.00.03, Молекулярная биология
Содержание диссертации, доктора биологических наук, Миронов, Андрей Александрович
Введение.
Глава 1. Поиск сигналов в геномах прокариот и архебактерий.
1.1. Методы распознавания сигналов в нуклеотидных последователь ностях.
1.1.1 Методы поиска сигналов.
1.1.2. Статистические методы построения весовой матрицы.
1.1.3. Методы распознавания образов.
1.2. Распознавание промоторов прокариот.
1.2.1.Метод Обобщенный портрет.
1.3. Поиск сигналов связывания с рибосомой в полных бактериальных геномах.
1.3.1 Материалы и методы.
1.3.2 Результаты и обсуждение.
1.4. Распознавание сигналов регуляции транскрипции в прокариотах.
1.4.1 Материалы и методы.
1.4.2. Результаты и обсуждение. Эволюция регуляции генов.
1.5. Исследование регуляции у архебактерий.
1.5.1. Материалы и методы.
1.5.2.Результаты и обсуждение.
1.6. Регуляция синтеза рибофлавина.
1.7. Сайты связывания ЬехА и ОшИ.
Введение Диссертация по биологии, на тему "Вычислительные методы молекулярной биологии и их применение к анализу геномов"
Теоретические работы в области анализа нуклеотидных последовательностей начались почти сразу после открытия генетического кода. Хотя в те времена еще не было создано эффективных методов секвенирования нуклеотидных последовательностей, но уже по первым коротким расшифрованным последовательностям транспортных РНК были сделаны первые важные выводы о ее вторичной структуре. Примерно в то же время появились первые (теперь уже классические) работы по сравнению аминокислотных последовательностей.
В конце 70-х годов 20-го века были разработаны достаточно эффективные методы определения первичной структуры нуклеиновых кислот и первые же достаточно длинные опубликованные последовательности вектораpBR-322, бактериофага фх-174 и вируса зеленой мартышки SV-40 потребовали серьезного применения компьютеров для их анализа. К этому времени и следует относить зарождение новой области науки, которую называют вычислительной молекулярной биологией (computational molecular boilogy), биоинформатикой или компьютерной генетикой. Собственно, название этой дисциплины, специальные журналы и конференции, посвященные этой области, появились позже - в начале 80-х.
Первые работы по анализу нуклеотидных последовательностей были посвящены самым разным задачам. Здесь были и простейшие (но необходимые) задачи поиска сайтов рестрикции, открытых рамок, трансляции нуклеотидной последовательности в аминокислотную, и более сложные задачи выравнивания и поиска локальных гомоло-гий, предсказания кодирующих областей, предсказания вторичных структур РНК, статистического анализа нуклеотидных последовательностей, поиска сигналов, восстановления нуклеотидной последовательности по фрагментам, а также целый ряд других задач. Несколько отдельно стояли задачи, не связанные непосредственно с анализом нуклеотидных последовательностей, например, физическое картирование молекул ДНК.
К концу 80-х годов объем банков данных превысил 106 оснований, причем появились последовательности первых достаточно больших полных геномов - бактериофага Ламбда и вируса Эпштейна-Барра. Соответственно изменились и задачи. Стали весьма актуальными задачи поддержания банков данных, поиска гомологий по банкам последовательностей, установление перекрестных ссылок и т.п. Старые классические задачи также несколько изменились. Возникли проблемы определения статистической значимости сходства последовательностей, появились новые семейства сигналов, расширялось секвенирование эукариотических последовательностей, что, в свою очередь, порождало проблему определения экзон-интронной структуры генов.
Начало 90-х годов ознаменовано началом работы над проектом "Геном человека". Этот проект по своим масштабам сравним с атомным проектом конца сороковых или проектом полета на Луну шестидесятых годов, но в отличие от этих проектов "Геном человека" является международным проектом, в работу над ним вовлечены специалисты Америки, Европы, Японии, России. Одним из важнейших направлений проекта "Геном человека" является биоинформатика. Ни у кого теперь не вызывает сомнений необходимость применения современных информационных технологий и математических методов для обработки ожидаемых колоссальных объемов информации. Кроме того, появляются новые идеи о методах физического картирования и сек-венирования, целиком основанные на компьютерном анализе данных - это, прежде всего, методы, связанные с олигонуклеоитдными чипами.
Вторая половина 90-х отмечена расширением работ по программе "Геном человека". С другой стороны, на момент написания этих строк появились полные нуклео-тидные последовательности более 20 бактериальных геномов (в публичном доступе), полный геном дрожжей, появились сообщения о завершении проектов секвенирова-ния нематоды, дрозофилы и человека. Полным ходом идут работы по определению последовательностей геномов риса, малярийного плазмодия и многих других организмов. Ряд биотехнологических и фармацевтических компаний секвенируют геномы патогенных микроорганизмов, хотя эти данные не публикуются. Все это повышает значимость работ в области вычислительной молекулярной биологии. В эти годы широкое распространения получила глобальная Сеть Internet, что наложило отпечаток и на работы в области вычислительной молекулярной биологии. Сейчас большинство методов и программ опубликованы в Сети, и любой исследователь может воспользоваться практически любой программой. Это заметно снизило значимость работ по созданию пакетов прикладных программ. С другой стороны повседневные программы с хорошими графическими возможностями по-прежнему актуальны.
В целом задачи вычислительной молекулярной биологии можно разделить на несколько направлений.
•Поиск сходства в генетических текстах. Это работы по выравниванию последовательностей, оценка статистической значимости найденных похожестей (гомологий), алгоритмы и методы поиска сходства по банку нуклеотидных и аминокислотных последовательностей.
•Поиск сигналов в нуклеотидных и аминокислотных последовательностях. Здесь используются статистические методы и методы распознавания образов, а также искусственные нейронные сети.
•Статистический анализ последовательностей. Этот анализ позволяет производить разметку последовательности на блоки достаточно больших размеров (например, кодирующие и некодирующие области).
•Поиск кодирующих областей. В случае прокариот здесь используют статистические критерии, поскольку кодирующие области представляют собой достаточно протяженные сегменты последовательности, а конец кодирующей области однозначно определяется наличием стоп-кодона. В случае эукариот такой подход не годится, поскольку гены разорваны интронами. В этих случаях применяют достаточно разнообразную и сложную технику, включающую в себя комбинаторные методы, методы поиска сигналов, статистический анализ и многое другое.
•Предсказание вторичной структуры РНК. Для решения этого класса задач применяют комбинаторные методы и прямое моделирование.
•Задачи, связанные с поддержкой эксперимента. Это задачи физического картирования, восстановления последовательностей по фрагментам и по олигонуклеотидным спектрам, и целый ряд других задач. Для их решения используются различные комбинаторные методы.
Настоящая диссертация суммирует работы, проводившиеся автором в течение более чем 15 лет в институте ГосНИИГенетика, и посвящена детальному анализу ряда задач вычислительной молекулярной биологии. Она включает в себя как старые работы, так и работы самого последнего времени.
Первая глава посвящена поиску сигналов в геномах прокариот. Рассмотрены следующие аспекты:
• применение методов распознавания образов для поиска бактериальных промоторов;
• распознавание сигналов связывания с рибосомами в полных бактериальных геномах;
• исследование регуляции в полных бактериальных геномах, основанное на сравнительном анализе геномов. В частности открыто новое семейство транспортных белков, находящихся под регуляцией пуринов.
Вторая глава целиком посвящена исследованию вторичных структур РЕК. Предложен новый метод анализа процесса формирования вторичной структуры РНК, позволяющий прослеживать стадии сворачивания РНК в процессе ее синтеза на РНК-полимеразе.
В третьей главе описаны методы предсказания экзон-интронной структуры генов эукариот, основанные на использовании сведений о гомологичных белках или кДНК. Метод тщательно тестирован и определены границы его применимости. Проведен анализ альтернативного сплайсинга в генах человека. Впервые показано, что количество альтернативно сплайсирующихся генов в геноме человека достигает 35%.
В четвертой главе описаны основные программные продукты, разработанные автором и под его руководством. Описана технология разработки, использованные алгоритмы и интерфейс пользователя.
- Миронов, Андрей Александрович
- доктора биологических наук
- Москва, 2000
- ВАК 03.00.03
- Молекулярная характеристика локусов, содержащих динуклеотидные микросателлиты, генома партеногенетической ящерицы Darevskia unisexualis
- Организация больших тандемных повторов в геноме мыши
- Разработка алгоритмов протеогеномного профилирования микроорганизмов
- Закономерности становления и организации генома злаков
- Эволюция и распространение мобильных генетических элементов в геномах представителей отряда Lepidoptera