Бесплатный автореферат и диссертация по биологии на тему
Анализ периодичностей в последовательностях коллагенов различных типов. Разработка метода конечномерного матричного Фурье-анализа
ВАК РФ 03.00.02, Биофизика
Автореферат диссертации по теме "Анализ периодичностей в последовательностях коллагенов различных типов. Разработка метода конечномерного матричного Фурье-анализа"
МОСКОВСКИЙ ОРДЕНА ЛЕНИНА ОРДЕНА ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. М.В. ЛОМОНОСОВА
АНАЛИЗ ПЕРИОДИЧНОСТЕЙ В ПОСЛЕДОВАТЕЛЬНОСТЯХ КОЛЛАГЕНОВ РАЗЛИЧНЫХ ТИПОВ. РАЗРАБОТКА МЕТОДА КОНЕЧНОМЕРНОГО МАТРИЧНОГО ФУРЬЕ-
АНАЛИЗА
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Биологический факультет
На правах рукописи
МАКЕЕВ ВСЕВОЛОД ЮРЬЕВИЧ
03.00.02 - биофизика
Москва 1996
Работа выполнена в лаборатории компьютерного и структурного анализа биополимеров Института Молекулярной Биологии РАН им. В.А. Энгельгардта
НАУЧНЫЙ РУКОВОДИТЕЛЬ:
Кандидат физико-математических наук
Н.Г.Есипова
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:
Доктор физико-математических наук
ВЛЛобышев Доктор физико-математических наук
В.А.Намнот
Ведущая организация:
Институт теоретической и экспериментальной биофизики РАН (Пущино)
Защита состоится ¡.оа^Т^ 1996 года в ' часов на заседахши диссертационного совета К 058.05.68 по адресу: 119899, Москва, Воробьевы горы, МГУ, биологический факультет.
С диссертацией можно ознакомиться в библиотеке биологического факультета МГУ
Автореферат разослан "^^й/сГч 1996 года
Ученый секретарь Диссертационного совета, доктор биологических наук, профессор & у р Б.А. Гуляев
Общая характеристика работы.
Введение. Актуальность проблемы.
Структура и физические свойства фибриллярных макромолекул - важнейшая проблема современной
молекулярной биофизики. Прежде всего это определяется тем, что современная биофизика последовательно продвигается в область анализа молекулярных механизмов клеточных и тканевых явлений, а они в значительной степени связаны с функционированием и структурными перестройками фибриллярных биополимеров, важнейшими из которых являются коллагены различных типов. Коллаген - основной белок соединительной ткани. Его содержание составляет около восьмидесяти процентов всех белков организма. В настоящее время известно до четырнадцати структурно-функциональных типов коллагена, описана биохимия компартментов с участием каждого из молекулярных типов, четко дифференцированы механизмы их биологического действия, показана важность коллагенов для осуществления дифференцировки и роста тканей, а также в ряде процессов регуляции мембранной активности. Важная роль коллагенов в организме определила и большой фронт работ, связанных с изучением биосинтеза коллагенов, процессов их структурообразования и фибриллогенеза. Тем не менее, несмотря на огромное количество работ, посвященных анализу структур коллагенов на различных уровнях их организации, - от анализа периодичностей в последовательностях до проблем фибриллогенеза "и трехмерной структуры волокон, мы до сих пор не знаем ни законов построения трехмерной структуры фибрилл для какого бы то ни было из типов коллагенов, ни детальных характеристик периодичностей, встречающихся в них. Вместе с тем незнание принципов строения белка ни на макромолекулярном, ни на на уровне фибрилл затормаживает все исследования, связанные с анализом биологических функции коллагена
Что же затрудняет решение структурной проблемы этого важнейшего системного белка, исследования которого насчитывают уже не один десяток лет? Что в первую очередь остается неясным? Это прежде всего - физические причины, определяющие структурные механизмы фибриллогенеза. Имеется ввиду вопрос: существующая структура фибриллы образуется вследствие специфических взаимодействий между боковыми радикалами макромолекулы как, например, электростатических , или фибриллогенез - это типичный процесс кристаллизации с зародышеобразованием и последующим ростом кристаллической фазы. В этом втором случае геометрия распределения зарядов вдоль макромолекул коллагенов разных типов должна, по крайней, мере быть в согласии с геометрией элементарной ячейки формирующегося кристалла.
Вместе с тем точное установление роли последовательности аминокислот в процессах структурообразования трехцепных молекул и их дальнейшего участия в фибриллогенезе наталкивается на целый ряд трудностей. Хорошо известно, что последовательность аминокислот в коллагенах отличается крайне точной периодичностью на различных масштабах длин. Однако неизвестно, какие из наблюдаемых периодичностей возникают как следствие дубликации более примитивных генов, а какие возникли в результате отбора, происходящего вследствие элиминации неудачных вариантов пространственных структур макромолекул и фибрилл.
Для решения указанной альтенативы требуется развитие адекватных методов анализа корреляций в последовательностях символов и в качестве предельного их отражения периодичностей в расположении аминокислот.
Важнейшей задачей на пути построения реальной физической модели фибриллогенеза мы считаем установление периодичностей в аминокислотных последовательностях различных коллагенов. Исследование распределения зарядов в пространстве фибриллярных макромолекул эквивалентно исследованию распределения аминокислот вдоль полипептидной цепи молекулы, поскольку эта цепь расположена в целом параллельно волокну. Именно поэтому закономерности в
распределении аминокислот в фибриллярных макромолекулах лежат в основе процессов организации вторичных структур в их полипетидных цепях , самосборки и функционирования волокон. Установление периодичностей в распределении аминокислот в молекуле важно прежде всего потому, что коллаген является основой дифференцировки важнейших тканей организма. Детали распределения физических свойств в пространственной структуре волокон могут быть причиной разнообразия физических механизмов дифференцировки и
структурообразования тканей разного типа.
К сожалению, существовавшие до сих пор методы анализа периодичностей оказались несовершенными для детального анализа тех корреляций, которые отражают такие периодичности в расположении аминокислот, которые или ограничены незначительной длиной по цепи или существуют по всей молекуле, но повторение их не является точным.
Поэтому для решения физических проблем фибриллогенеза коллагенов прежде всего актуальна задача разработки новых методов анализа распределения символов в их первичной структуре. Решение этой задачи не менее актуально также и для анализа первичных структур самых различных биополимеров. Действительно, основному множеству
биополимеров не свойственны точные периодичности в распределении химических символов вдоль их макромолекулярных цепей, а количество повторяющихся единиц часто бывает даже меньшим, чем в коллагенах.
Цель и задачи исследования.
1. Анализ распределения физико-химических характеристик вдоль волокон коллагена, таких как электростатический потенциал, индекс гидрофобности, а также распределения вдоль волокна групп с характерными физико-химическими свойствами как основы понимания молекулярного механизма функционирования соединительной ткани и процессов дифференцировки .
2.Разработка нового эффективного метода анализа последовательностей в биополимерах, а именно, символьного дискретного Фурье-анализа.
3.Применение разработанного метода к анализу последовательностей в коллагенах различного происхождения.
4.Исследование периодичностей в коллагенах в генетическом и структурно-функциональном аспектах.
5. Разработка модели начальных этапов фибриллогенеза коллагена
Научная новизна работы.
Построен непротиворечивый математический метод Фурье-анализа символьных последовательностей конечной длины. Это впервые дает возможность сравнивать периодическую структуру последовательностей, написанных в различных алфавитах, включая ДНК и белки. Подчеркнем, что разработанная процедура впервые дает возможность адекватного и непротиворечивого представления любых характеристик по существу любой наперед заданной последовательности любых символов в виде цифрового материала, пригодного для корреляционного и Фурье-анализа. Наконец, предложенный метод дает возможность изучать периодичности в последовательностях на фоне абсолютных повторов, а также обнаруживать периодичности, существующие на расстояниях, сравнимых с полной длиной последовательности символов .
Метод применен для исследования периодичностей в последовательностях аминокислот в коллагене I крысы и коллагенах из различных в таксономическом отношении организмов. В результате обнаружены как новые
периодичности в распределении конкретных аминокислот, так и установлено, какие семейства аминокислот(с определенными физико-химическими свойствами), ответственны за периодичности, наблюдавшиеся ранее в различных экспериментах и расчетах.
Впервые в коллагене I найден период, соответствующий 72 остаткам. Он укладывается целое число раз на трехцепном участке макромолекулы коллагена и кратен ее длине.
Установлено, что найденный период соответствует распределению заряженных групп, причем суммарному; распределение положительных и отрицательных зарядов по отдельности таково, что ионные пары между трехцепными макромолекулами могут завязываться на их концах, причем только по принципу: голова к хвосту, т.е. первый период с последним. На основании этого результата построена новая модель фибриллы коллагена, удовлетворяющая существующим физико-химическим и дифракционным данным. Модель показывает также, что фибриллогенез коллагена происходит по механизму зародышеобразования и последующего роста кристаллической фазы.
Анализ свойств наблюдаемых периодичностей позволил установить ряд новых закономерностей в распределении аминокислот в полипептидных цепях коллагенов.. Так показано, что заряды разного знака распределены согласно одинаковым периодичностям и разнесены вдоль фибриллярной макромолекулы. Это, по-видимому, означает, что ионные пары играют важную роль не только в упаковке трехцепных молекул в волокно, но также и в стабилизации самой трехцепной макромолекулы, а также во встраивании волокон в ткань. Остающиеся несбалансированные заряды, видимо, определяют взаимодействие с межклеточными белками и, таким образом, в конечном счете к дифферснцировку клеток.
Сравнительный анализ периодичностей распределения аминокислот в коллагенах различных типов из разных животных позволил установить одинаковый для всех коллагенов период, свойственный распределению аминокислот любого типа. Им оказался период, соответствующий 39 аминокислотам. Этот период наблюдается также и для участков цепи со скоплениями аминокислот. Можно думать, что происхождение указанной периодичности обязано своим возникновением одной из двух причин - либо этот период определяет истинный период левой спирали трехцепной молекулы коллагена, либо является главной периодичностью, определяющей фибриллярность макромолекулы.
Все наблюдаемые периодичности разделены на основные, которые возникают вследствие повторения конкретных
аминокислот или определяемых ими групп свойств, и производные, которые возникают как следствие суперпозиции основных периодов. Продемонстрировано, что период повторяемости, соответствующий 234 аминокислотам, возникает как суперпозиция периодов 18, 26, 39, 47, 78.
Установлена связь между периодичностями в распределении аминокислот и их кодонов. Показано по третьему нуклеотиду, кодирующему глицин, наличие периода 702 нуклеотида, что соответствует 234 аминокислотам. Этим доказано, что период в 234 аминокислоты, считавшийся главным
структурообразующим, имеет генетическое происхождение, а не связан с отбором по структурному признаку. На основе новых данных критически разобраны все до сих пор предложенные модели структурной организации фибрилл коллагенов и показано преимущество разработанной нами новой модели.
Практическое значение работы.
Полученные результаты могут быть использованы при анализе последовательностей нуклеотидов, а также генов в геномах, аминокислот в белках; для программ типа Геном человека, биоинженерия и т.п. Созданные программы могут быть включены в пакеты программ анализа биополимеров для биотехнологии и биомедицины. Возможен Фурье-анализ лингвистических текстов, т. е. применение разработанного метода в различных областях структурной лингвистики.
Аппробация.
Результаты диссертации докладывались на Международной конференции "Современные проблемы биофизики", Международном симпозиуме "Молекулярная биология на рубеже XXI века", а также на ряде всероссийских симпозиумов и конференций.
Публикации.
По материалам работы опубликованы четыре статьи и тезисы.
Структура и объем работы
Диссертация изложена на 90 страницах и включает 22 рисунка и 3 таблицы. Список литературы содержит 112 наименований. Диссертация состоит из введения и пяти глав.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, определены цели и задачи исследования, его научная новизна и практическая ценность.
В первой главе дан критический обзор литературы, в котором проанализированы математические методы поиска периодических закономерностей в расположении символов в последовательностях, а также их приложения к биологии. Особое внимание уделено работам, посвященным анализу периодического расположения аминокислот в
последовательностях коллагенов. Продемонстрировано, что принятая форма метода Фурье-анализа последовательностей мало пригодна для анализа периодичностей в биополимерах вследствие прежде всего неточностей в повторении символов и малого числа повторов. Показано, что отсутствует доказанная связь между наблюдаемыми периодичностями в распределении амнокислот и пространственной структурой волокон коллагенов.
Во второй главе изложен математический метод, разработанный для поиска периодических закономерностей в символьных последовательностях и обсуждаются преимущества и недостатки применявшегося подхода.
При разработке метода преследовались следующие цели: легкость интерпретации результатов, возможность выбора различных числовых представлений в любых символьных последовательностях и возможность поиска в коротких последовательностях периодичностей, повторяющихся на длине последовательности небольшое число раз.
В результате мы разработали следующий метод для установления закономерностей в распределении аминокислот в полипептидной цепи: Пусть дана последовательность символов, принадлежащих к некоторому алфавиту А. Пусть, далее, между символами задана матрица схожести Ь(а,(3) (например матрица
Дайхофф для белков). В случае, если символы полагаются совершенно различными, должна выбираться единичная матрица Ь(а,р). Для каждой буквы алфавита по данной последовательности строится характеристическая
последовательность (всего 20 для белков, 4 для нуклеиновых кислот) в которой стоит 1 на том месте, где в изучаемой последовательности стоит соответствующая буква и 0 - во всех остальных местах. Эти цифровые характеристические последовательности подвергаются преобразованию Фурье. Полученные Фурье-образы затем для каждой гармоники перемножаются попарно и складываются с коэффициэнтами, взятыми из матрицы близости двух символов каждой пары.
5(со,)= ££(а,РУа(ш,)Л'(«|>4). (1)
а£ьА
Показано, что так определенная соответствует
спектру мощности преобразования Фурье автокорреляционной функции последовательности, заданной с помощью матрицы Ца,р).
(2)
Таким образом, аккуратно решается проблема отцифровки символьной последовательности, что необходимо для применения Фурье-анализа, и возникает естественная интерпретация результатов. Показательно, что практически все алгоритмы, использующие Фурье-анализ для поиска периодических закономерностей в биополимерах, могут быть представлены в рамках нашего подхода путем соответствующего выбора матрицы £(а,Р) и, следовательно, значительно облегчается сравнение результатов, полученных разными авторами.
Подобная процедура позволяет рассматривать большое число интересных биологически примеров и, в частности, сравнивать периодические структуры последовательностей, записанных в разных алфавитах, таких как ДНК и белки. Интересный пример такого сравнения изложен в главе 4.
Статистическая значимость полученных результатов может быть приближенно оценена по сравнению с рассчитанным аналитически спектром мощности случайной
(Бернуллиевской) последовательности. Этот спектр выражается формулой:
(г(,тд * 0)) = 1/ 4¡гЬ-БитЬ . (3)
Здесь БитЬ - сумма всех элементов матрицы сходства, а иЬ - сумма ее диагональных элементов. В большинстве наших расчетов результирующая амплитуда нормировалась на мощность спектра бернулиевской последовательности.
Некоторые сложности возникают при рассмотрении длинных периодов, повторяющихся небольшое число раз на протяжении изучаемой последовательности. В этом случае "краевые эффекты" могут сильно отразиться на результатах Фурье-анализа, в частности, периоды с длиной, равной целому делителю длины последовательности попадают в привилегированное положение. Рассмотрение подобных длинных периодов, однако, необходимо при изучении периодической структуры последовательности коллагена, поскольку основной период £> повторяется на длине последовательности неполных пять раз. Для того, чтобы разрешать такие периоды на Фурье-спектре был разработан достаточно простой, однако требующий больших объемов вычислений метод. Для каждого периода последовательность замыкалась в кольцо наибольшей длины, кратной анализируемому периоду, и на этом кольце вычислялась корреляционная функция (2). При этом приходится отказаться от быстрого преобразования Фурье, которое накладывает на длину последовательности требование кратности ее двум. В этом случае все периоды "попадают в резонанс с длиной" последовательности, однако каждый период приходится рассчитывать отдельно и общий объем расчетов увеличивается во столько раз, сколько в последовательности символов. Однако в результате значительно повышается точность расчетов, и, что особенно важно, становится возможным изучать последовательности, в которых одновременно присутствуют строгие периоды и слабые периодические зависимости. Так, упрощается изучение коллагена, в котором длинные нестрогие периоды существуют на фоне строгой периодичности в расположении глицинов, занимающих каждое третье место в последовательности.
В третьей главе изложены результаты изучения периодичностей в ДНК коллагена. В нашей работе впервые изучены периодичности и произведено их сравнение в белке и гене коллагена. Показано, что в последовательности ДНК присутствуют равным образом как периоды, свойственные белку, так и периоды, свойственные исключительно ДНК. Кроме того были построены спектры последовательностей нуклеотидов, занимающих первые, вторые и третьи позиции в рамке считывания.
Наиболее интересным результатом является нетривиальный факт, заключающийся в том, что в последовательности коллагена фундаментальная периодичность Б=234 аминокислоты наблюдается и, более того, яснее всего представлена в спектре, составленном из нуклеотидов, занимающих третью, малозначащую позицию в рамке. Данные были первоначально получены при анализе ДНК, кодирующей полипептидную цепь коллагена третьего типа человека. Установлено , что подобный период наблюдается и в ДНК, кодирующей последовательность а2(1) цепи коллагена первого типа. Этот результат может быть трактован как аргумент в пользу происхождения гена путем мультипликации гена-предшественника.
Следует заметить, что дупликация гена фигурировала в литературе в качестве источника периодического строения коллагена, однако до сих пор отсутствовали сколько-нибудь убедительные свидетельства в пользу такого предположения. Периодичности считались, главным образом, необходимыми для создания макроскопической структуры фибриллы, а генетическому аспекту не уделялось достаточного внимания. В то же время коллаген представляет собой уникальных объект именно для изучения генетических событий. Это происходит благодаря тому, что в коллагене каждой третьей аминокислотой является глицин, код которого четырехкратно вырожден и, таким образом, третий нуклеотид соответствующего кодона является произвольным. Таким образом, каждый третий нуклеотид в кодоне, кодирующем глицин, т.е. каждый девятый нуклеотид в гене, зависит только от факторов, относящихся к
состоянию ДНК и истории гена, но не зависящих от отбора на аминокислотном уровне.
Поэтому, чтобы проверить предположение о возможном происхождении основного периода коллагена путем редупликации гена была рассмотрена последовательность, составленная из нуклеотидов, занимающих третьи позиции в триплетах, кодирующих глицин. В этой последовательности, на структуру которой отбор на аминокислотном уровне видимо влияет крайне слабо, период, соответствующий D=78 нона-нуклеотидов, оказался наиболее мощным периодом в спектре (рис. 1.). Таким образом, получен сильный аргумент в пользу того, что основной период в коллагене отражает редупликацию гена в процессе эволюции.
Ca31 DNA Gly coding 3-d position
0 20 40 60 80 100
period
рис. 1
В четвертой главе подробно рассмотрена периодическая структура распределения аминокислот различных типов в разных коллагенах. Главными объектами изучения являлись а1-и а2-цепи коллагена первого типа и а1- цепь коллагена третьего типа. Оказалось, что периодические закономерности в расположении аминокислот сложно варьируют в зависимости от типа молекулы и химических свойств аминокислоты.
Был проведен сравнительный анализ закономерностей в распределении аминокислот в коллагенах трех типов. В настоящей работе нами исследовалось расположение заряженных (К,Н,Н,0,Е) и незаряженных (Ь,1,У.М,Р) аминокислот, а также пролинов. Кроме того мы получили спектры периодов для полной аминокислотной последовательности коллагена, используя различные матрицы подобия аминокислотных остатков.
Установлено, что во всех изучавшихся последовательностях, наблюдается единственная периодичность 39=0/6, характерная для всех семейств аминокислот сразу, в том числе определяющая закономерности расположения лизинов подвергающихся посттрансляционному оксидированию для их последующего взаимодействия с полисахаридами.
Далее существует ряд периодичностей, характерных для распределения аминокислот выделенных типов, но одинаковых для коллагенов разных типов . Подобным примером может служить периодичность в 21 аминокислоту, характерная для распределения незаряженных аминокислот.
Впервые открыта ранее не наблюдавшаяся в коллагенах периодичность 40/13, характерная для заряженных аминокислот. Важнейшей особенностью этой периодичности является то, что она кратна целой длине молекулы и не кратна периоду Б, в отличие от всех наблюдавшихся ранее периодичностей.
Наиболее неожиданным результатом явился факт, что период О, предполагавшийся значимым для упаковки оказался скорее генетическим по происхождению, в то время как более короткие периоды - делители Б имеют большую значимость. Об этом говорит тот факт, что во многих случаях период О на спектрах крайне слаб, в то время как его многочисленные делители проявляются крайне ярко. Создается впечатление, что данные по корреляциям аминокислот через период О обязаны своим происхождением факту, что О является наименьшим общим кратным множества различных периодик, характерных для разных аминокислотных семейств. Это наблюдение хорошо согласуется с результатами, изложенными в предыдущей главе -период мультипликации пра-коллагена несет в себе все короткие, структурно-функционально значимые периодики.
Удивительно, что при организации волокон ни один из коротких периодов непосредственно не проявляется в геометрических характеристиках рентгенограмм и построенных на основании чтих прнтгрногпямм моделях. Полученные результаты, свидетельствующие о том, что наиболее ярко проявляющийся в геометрии волокон период О не является главной "физической" периодичностью аминокислот, заставляют
нас в явном виде поставить вопрос о формах связи между распределением свойств аминокислот и структурными характеристиками различных уровней организации коллагенов.
Приведем общие характеристики наблюдаемых периодичностей. Наиболее ясно структурирована последовательность а1 цепи коллагена первого типа. В спектре незаряженных аминокислот присутствует ряд пиков, соответствующихпериодам 21(0/11), 26(Ъ/9), 39(0/6), 47ф/5), 78(0/3) и 100 аминокислот. Эти результаты в прекрасном согласии с полученными в работе [с!е Веегп е1. а1., 1979], Заслуживает внимания отсутствие максимума вблизи самого периода О. Это свидетельствует о том, что О-периодичность в распределении незаряженых аминокислот, описанная многими авторами, обязана своим возникновением наложением многих, более коротких периодов - делителей О. Это проиллюстрировано на примере наиболее ярко выраженной периодичности с периодом в 39 аминокислот. Построенное на рис. 2 выравнивание последовательности через период 39 аминокислот показывает, что на периоде 234(0) наблюдаются ясно различимые более короткие подпериоды, и минимальная длина(из 39, 78, и 234 аминокислот), на которой наблюдается ясная периодичность, соответствует как раз 39 аминокислотам. Следует также отметить, что период 47 не кратен 3, т.е. расположенные согласно этому периоду аминокислоты не могут быть отнесены ни к X ни к У позициям, а чередуются между ними. Такая ситуация вообще говоря мало свойственна периодам, наблюдаемым в молекуле коллагена, которые обычно кратны 3 и часто характерны либо для X, либо для У позиции. Слабо выраженные в а! цепи коллагена I типа периоды 26 и 78 аминокислот лучше выражены в молекулах коллагенов других типов.
рис. 2
В коллагене а1 (I) спектр заряженных аминокислот устроен менее четко. Ярко выражены периоды 11, 26, 39 и 72 аминокислоты. Периоды 47 и 78 невыражены. Амплитуда периодичностей сравнима с наблюдаемой в спектре периодов незаряженных аминокислот. Заметим, что в изучаемой молекуле заряженных аминокислот существенно больше, чем незаряженных, и малость амплитуды периодичностей отражает большую хаотичность (или большую сложность) расположения заряженных аминокислот в молекулярной цепи. Сравнение выравниваний через период 39 для заряженных и незаряженных аминокислот приводит к выводу, что заряженные аминокислоты имеют тенденцию группироваться в конце, а незаряженные аминокислоты - в начале каждого периода.
Иная картина периодичностей характерна для расположения пролинов, содержание которых доходит до 30% аминокислотного состава коллагена. Наряду с периодами, характерными для расположения практически всех семейств
аминокислот в молекуле коллагена, такими как 39 и 47, в спектре периодов, характерных для распределения пролинов, наблюдаются уникальные линии. Таким, в частности является период 18 аминокислот (D/13), близкий к длине экзона в ДНК коллагена, составляющего 54 нуклеотида или 18 триплетов нуклеотидов. Следует отметить, что новая, обнаруженная в нашей работе периодичность в 72 аминокислоты никак не связана с периодичностью в 18 аминокислот потому, что первая наблюдается только для распределения полярных аминокислот, а вторая - только для пролинов. Кроме того присутствуют периоды 26 (D/9), 29, 63, 72 (4D/13), 117 (D/2).
Если брать в рассмотрение все аминокислотны из последовательности коллагена, периоды, характерные для определенных семейств . аминокислот, более или менее нивелируются. На спектре проявляются периоды, характерные либо для большинства семейств аминокислот, например отражающие точные гомологии, либо характерные для семейств аминокислот, в большом количестве представленных в молекуле коллагена.
Спектр полной последовательности ocl цепи коллагена (I), полученный с использованием матрицы сходства символов Дайхофф содержит.максимумы, соответствующие периодам 39 (D/6) и 47 (D/5), характерным для большинства семейств аминокислот, а также характерный для спектра расположения пролинов максимум, соответствующий периоду 18 аминокислот. Также наблюдаются максимумы 26 (D/9), 54 (3/13), 72 (4D/13), 118 (близок к 117 = D/2). 228 (близок к 234 = D).
Еще большее нивелирование сложной периодической структуры, наблюдаемой в расположении аминокислот в первичной структуре коллагена, достигается при применении матрицы сходства символов, отражающей частоту замен аминокислот между коллагенами различных типов, полученной и опубликованной в [Fietzek & Kuhn, 1980]
На спектре выделяются пики, соответствующие периодам 26 (D/9), 39 (D/6), 47 (D/5), 72 (4D/13). Кроме того присутствуют периоды 84, 96, 105, 231 аминокислот, последний
ТАБЛИЦА 1
Основные периодичности, представленные в последовательностях коллагенов al(I), a2(I) и al(III) для разных аминокислотных семейств
Тип молекулы Период Семейство
аминокислот
11 заряженные
18 лролины,
заряженые (min)
21 (D/11) гидрофобные
26 (D/9) заряженные
пролины
29 (?) пролины
al (I) 39 (D/6) гидрофобные
заряженные
пролины
47 (D/5) пролины
гидрофобные
54 (3D/13) пролины
63 (?) заряженные
72 (4D/13) заряженные
пролины (min)
78 (D/3) гидрофобные
100 гидрофобные
117 (D/2) заряженные
пролины
228 (D) заряженные
11 (?) заряженные
18 (D/13) пролины, заряженные
(min),
21 (D/11) гидрофобные
a2 (I) 26 (D/9) гидрофобные
заряженные
33 (?) заряженные
39 (D/6) пролины, гидрофобные
заряженные
72 (4D/13) заряженные
78 (D/3) гидрофобные
89 (?) заряженные
94(2D/5) гидрофобные
а2 (I) 100 гидрофобные
110 заряженные
117(D/2) гидрофобные
140 (3D/5) гидрофобные
189 (4D/5)iuik(9D/13) гидрофобные
9(D/26) пролины
11(?) заряженные, пролины
18(D/13) гидрофобные (min),
заряженные (min),
пролины
21(D/11) гидрофобные
26(D/9) гидрофобные (min)
30(?) пролины
33(?) заряженные
al (III) 39(D/6) гидрофобные,
заряженные
пролины (max)
47(D/5) гидрофобные (max)
заряженные (min)
54(3D/13) гидрофобные
59(?) заряженные
72(4D/13) заряженные, пролины
(min)
78(D/3) гидрофобные
119(D/2) гидрофобные
144(8D/13) гидрофобные(шах)
175(?) гидрофобные, пролины
183 заряженные
232(D) гидрофобные
из которых близок к Э. Отметим, что спектр, полученный с использованием матрицы Дайхофф, характеризуется меньшей интенсивностью по сравнению с интенсивностями,
характерными для спектров отдельных семейств аминокислот. Спектр, полученный с использованием матрицы внутренних замен, характеризуется еще меньшей интенсивностью и большей гладкостью.
Периоды в а2 цепи коллагена (1) и al цепи коллагена (III) отличаются меньшей отчетливостью по сравнению с периодами в последовательности коллагена al (I). Общие результаты исследования всех коллагенов представлены в таблице 1.
В пятой главе рассмотрена модель начальных стадий фибриллогенеза. В проблеме структурообразования коллагеновых волокон имеются сплошные белые пятна: неизвестно даже, образуются ли на первом этапе фибриллогенеза микрофибриллы или весь процесс сводится к последовательным процедурам, напоминающим кристаллизацию макромолекул с обязательной стадией образования зародышей и дальнейшим ростом кристаллической фазы. Как мы уже указывали выше, причиной такого положения является отсутствие данных, которые помогли бы провести прямое соотнесение характеристик распределения аминокислот в полипептидной цепи с периодичностями относительного расположения трехцепных молекул в пространстве волокон, что, в свою очередь, определяется большим числом периодичностей в спектре распределения аминокислот, кратных основному периоду D. Действительно, совершенно не понятно, почему основной сдвиг макромолекул коллагена в волокне кратен D, а не одному из реальных периодов, отражающих распределение аминокислот с определенными физико-химическими свойствами, например определенное распределение заряда вдоль полипептидной цепи, скажем 39 или 78 аминокислотам.
Полученные нами результаты показывают, что период D, считавшийся основным параметром периодичности распределения аминокислот в коллагене, скорее - генетический атавизм, связанный с происхождением гена коллагена и проявляющийся ярко потому, что он является суперпозицией кратных ему, реальных периодичностей, возникающих по реальным свойствам реальной последовательности аминокислот. Становится ясным, что прежде всего следует понять, какие свойства процесса фибриллогенеза не позволяют трехцепным
макромолекулам сдвигаться на величины, кратные О и меньшие, чем он?
Рассмотрим цитированную выше таблицу периодичностей распределения аминокислот в коллагенах, анализируя прежде всего особенности периодического распределения зарядов, так как именно зарядовые взаимодействия важны на первых стадиях фибриллогенеза, где образуют первые структуры отдельные, расположенные на достаточных расстояниях друг от друга макромолекулы. Мы можем видеть, что среди периодичностей, которые меньше основного периода, не кратны ему и отражают распределение заряженных аминокислот имеется всего две: 72 и 183 аминокислоты. Из этих двух периодичностей только одна - 72 аминокислоты - кратна длине всей молекулы. Рассмотрение расположения отдельно положительных и отдельно отрицательных зарядов показывает, что при относительном сдвиге трехцепных макромолекул на 72 аминокислоты только головной и хвостовой периоды оказываются заряженными разноименно, т.е. могут стать центрами образования микрофибрилл.
Вид такой микрофибриллы показан па рис. 3.
Рис. 3 Строение микрофибриллы коллагена.
Замечательно, что эта микрофибрилла при общей длине, пропорциональной величине, равной 40*№+40/13, имеет толщину, равную толщине одной трехспиральной молекулы коллагена, т.е. составляет около 11 А. Период повторяемости вдоль такой молекулы,как легко видеть из равен 40. Естественно, что процесс дальнейшего структурообразования такой микрофибриллы может быть представлен в виде кристаллизации микрофибриллы в тетрагональной сингонии с зародышем, в котором, четыре макромолекулы связаны друг с другом осью симметрии четвертого порядка и расположены со сдвигом на 1/4 периода, т.е. равным О. Такая модель,
построенная на основании анализа реальных свойств последовательности аминокислот в коллагене, впервые естественно позволяет объяснить первые стадии фибриллогенеза как процесса кристаллизации микрофибрилл, организованных вследствие реализации потенциальных электростатических взаимодействий боковых радикалов аминокислот, расположенных периодически в полипептидных цепях коллагенов различного происхождения.
ЗАКЛЮЧЕНИЕ
Мы продемонстрировали на примере решения проблемы фибриллогенеза коллагеновых систем, что для изучения структурогенеза фибриллярных биополимеров необходимо детальное знание распределения периодичностей химических символов вдоль их макромолекулярных цепей. Это небходимо прежде всего потому, что линейность макромолекулы может быть поддержана на полной длине цепи только при условии существования периодичностей в распределении символов на всех масштабах. В противном случае, произошло бы складывание полипептидной цепи на том размере длины, на котором периодическое распределение зарядов или дипольных моментов перестало бы поддерживать линейность параметров макромолекулы как за счет их расталкивания, так и за счет образования стабилизирующих ионных пар.
Для исчерпывающего установления периодичностей символов и свойств вдоль молекулярных цепей пришлось создать новый метод Фурье-анализа. Причин тому несколько. Вообще говоря, по специфике задача о поиске периодичностей в биологии отличается от той, для решения которой был создан современный метод Фурье- анализа - т.е. для объектов с большим количеством одинаковых периодов. В биологических объектах преобладают периодичности, которые, во-первых, повторяются ограниченное число раз в данной молекулярной цепи а, во-вторых, имеется много разных периодичностей в одной макромолекуле. Описано также определенное количество апериодических структур с чертами слабых корреляций.
Созданный нами метод позволил, как это следует из изложенного, преодолеть все вышеописанные сложности и позволяет исчерпывающе устанавливать периодические свойства последовательностей любых символов и даже слабых корреляций в расположении символов или их свойств . Он. к тому же, позволяет представлять символьную последовательность в цифровой форме. Таким образом, важная биологическая задача поиска периодичностей в различных биополимерах нашла свое решение.
Выводы
1. Проведен анализ периодичностей распределения символов в последовательностях биополимеров. Показана неполнота представлений, вытекающая из неадекватности деления символов по их альтернативным физико-химическим характеристикам таким, как сродство к воде и неполярным растворителям, парциальный заряд и так далее. Показано, что эти недостатки - следствие ограниченной пригодности существующих модификаций метода Фурье - анализа для анализа символьных последовательностей.
2. Создан метод матричного Фурье -анализа, пригодный для установления корреляций и периодичностей в любых символьных последовательностях и, вследствие этого, в любых последовательностях биополимеров, в том числе при наличии абсолютных повторов некоторого масштаба и периодичностей с большим периодом, повторяющимся небольшое число раз на длине полимерной цепи.
3. Разработанный метод применен для анализа периодичностей в последовательностях аминокислот в коллагене и последовательности нуклеотидов в гене коллагена по третьему нуклеотиду в ко до не глицина.
4. Показано, что семейства аминокислот, отличающихся по физико-химическим свойствам, отличаются и по характерным периодичностям. Только период, соответствующий 39 аминокислотам, не зависит от типа семейства.
5. Найдена новая периодичность, никода ранее не наблюдавшаяся в последовательностях аминокислот коллагенов - 72 аминокислоты. Этот период соответствует 40/13 и связан с заряженными аминокислотами.
6. Показано, что по третьему нуклеотиду кодонов глицина, четырежды вырожденному, а поэтому незначащему для кодирования аминокислоты, выделяется период, соответствующий 702 нуклеотидам.
7. Установлено, что этот период в структуре коллагена соответствует периодичности, равной 640А и наблюдаемой как
основной период D под малыми углами на рентгенограммах волокон всех коллагенов. Таким образом, период, определяемый повторением 234 аминокислот вдоль оси волокна характерен для гена коллагена и имеет поэтому генетическое происхождение и не связан с отбором по структурным причинам.
8. Показано, что единственными участками трехцепных макромолекул способными взаимодействовать но механизму образования ионных пар между целыми молекулами, являются первый и последний элементы периодичности, соответствующей 72 аминокислотам.
9. Сформулирована модель организации микрофибриллы коллагена, по принципу: "голова к хвосту", толщиной в одну трехцепную макромолекулу. Следующие стадии фибриллогенеза происходят по механизму кристаллизации длинной микрофибриллы с периодичностью 4D через стадию зародышеобразования (со сдвигом на один D)
Публикации
1. В.Ю. Макеев Стохастический резонанс и его возможная роль в живой природе, Биофизика т.38, N1., 194-201, 1993
2. В.Ю. Макеев, В.Г. Туманян Связь между методами внутренних гомологии, корреляционных функций и Фурье-анализа при поиске периодичностей в первичных структурах биополимеров. Биофизика т.39, N2, 294-297 (1994)
3. V.Ju. Makeev, V.G. Tumanyan, N.G. Esipova The third nucleotide o[ the Gly coding triolet remembers the periodicity of the collagen chain FEBS letters 366 (1995) 33-36
4. V. Ju. Makeev, V.G. Tumanyan Search of periodicities in primary structure of biopolymers: a général Fourier approach accepted in CABIOS.
- Макеев, Всеволод Юрьевич
- кандидата физико-математических наук
- Москва, 1996
- ВАК 03.00.02
- Периодичности в структуре промоторных участков ДНК
- Изучение периодических свойств нуклеотидных последовательностей геномов
- Изучение точек разладки триплетной периодичности последовательностей ДНК, кодирующих белки
- Исследование фибриллогенеза коллагена типа I in vitro
- Эволюционные и экологические аспекты развития коллагеновых структур