Бесплатный автореферат и диссертация по биологии на тему
Структурно-функциональные мотивы в последовательностях цитохромов Р450
ВАК РФ 03.00.04, Биохимия

Содержание диссертации, кандидата биологических наук, Гусев, Семен Александрович

Список сокращений

Введение

Обзор литературы

Выравнивание белковых последовательностей

Определение выравнивния аминокислотных последовательностей

Способы оценки сходства между аминокислотами

Матрица замен Дейхофф

Матрица замен BLOSUM

Выбор матрицы замен

Выравнивание двух последовательностей

Выравнивание последовательностей без вставок

Выравнивание последовательностей с вставками

Поиск оптимального выравнивания с помощью динамического программирования

Функция штрафа за вставки

Использование дополнительных сведений при построении выравнивания

Множественное выравнивание последовательностей

Иерархические методы выравнивания

Анализ результатов множественного выравнивания

Алгоритм FASТА

Алгоритм BLAST

Случайные последовательности

Программа PRRP

Свойства случайных баз данных

Определение мотива

Идентификация мотивов последовательности белка

База данных Prosite

Шаги, для нахождения нового паттерна

Поиск мотивов в последовательностях

Выделение паттерна

Методы полного выравнивания последовательности

Подходы, основанные на теории информации

Идентификация уникальных пептидных слов

Методы локального выравнивания

Краткая характеристика надсемейства цитохромов Р

Микросомальное окисление

Разнообразие форм Р

Распространенность и локализация Р

Механизм функционирования Р

Классификация Р450-содержащих монооксигеназных систем

Номенклатура цитохромов Р

База данных по цитохромам Р

Программные средства, использовавшиеся в работе

Выбор суперсемейства для проверки

Материалы и методы

Источники последовательностей

Формирование выборки для проверки метода поиска мотивов

Множественное выравнивание

Консенсусные последовательности

Статистика Шермана

Оценка специфичности мотивов

Принцип наименьшей длины мотива

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Зависимость плотности КП при множественном выравнивании случайно сгенерированных последовательностей

Методы перекодирования КП в бинарную последовательность

Роль вставок в консенсусной последовательности

Свойства оценочной функции

Параметры алгоритма

Результаты, полученные при обработке проверочной выборки

Поиск мотивов в надсемействе цитохромов Р

Структурно-функциональная карта сур

Определение границ кластеров

Способы хранения мотивов

Доступность разработанных методов анализа консенсусных последовательностей

Выводы:

Заключение Диссертация по теме "Биохимия", Гусев, Семен Александрович

ВЫВОДЫ:

1. Показано, что для построения инвариантной консенсусной последовательности цитохромов Р450 число выравненных последовательностей должно превышать 5. В этом случае для сгенерированных случайным образом последовательностей инвариантная консенсусная последовательность не может быть сформирована вообще.

2. На основе статистики Шермана подобрана функция оценки консенсусной последовательности, которая является позиционно-специфической и позволяет выявлять наличие структурно-функциональных мотивов.

3. Обнаруженные мотивы разделены на две категории: а) мотивы эволюционно-консервативного ядра надсемейства цитохромов Р4 50. б) мотивы, специфичные для отдельных семейств.

4. Выявленные структурно-функциональные мотивы нанесены на соответствующие консенсусные последовательности в цветовой кодировке и помещены в базу данных по цитохромам Р4 50 в качестве справочной информации.

Библиография Диссертация по биологии, кандидата биологических наук, Гусев, Семен Александрович, Москва

1. Александров Н.Н., Каламбет Ю.А. (1990) Распознавание функциональных сигналов. Компьютерный анализ генетических текстов. М., Наука 113-153.

2. Арчаков А. И. (1975) Микросомальное окисление. М. , Наука.

3. Бородовский М.Ю., Певзнер П.А. (1990) Статистические методы анализа генетических текстов. Компьютерный анализ генетических текстов. М., Наука 36-80.

4. Головенко Н.Я. (1981) Механизм реакций метаболизма ксенобиотиков в мембранах, Наукова Думка, Киев.

5. Жарких А.А., Ржецкий А.Ю. (1990) MATTRE: Программа построения дендрограммы сходства различными матричными методами. Институт цитологии и генетики СО АН, Новосибирск.

6. Леонтович A.M., Бродский Л.И., Горбаленя А.Е. (1990) Построение полной карты локального сходства двух биополимеров (Программа DotHelix пакета GenBee). Биополимеры и клетка б, 14-21.

7. Миронов А.А. (1990) Поиск гомологий. Компьютерный анализ генетических текстов. М. , Наука 11-35.

8. Романовский Ю.М., Степанова Н.В., Чернавский Д.С. (1975) Математическое моделирование в биофизике.- М. , Наука.

9. Шепелев В.А. (1991) Алгоритм ускоренного построения точечных матриц гомогии. Биополимеры и клетка 7, 22.

10. Abagyan R.A., Batalov S. (1997) Do aligned sequences share the same fold? J. Mol. Biol. 273, 355-368.

11. Altschul, S. (1991). Amino acid substitution matrices from an information theoretic perspective. J. Mol. Biol. 219, 555-565.

12. Altschul, S.F., Gish, W. , Miller, W., Myers, E.W., and Lipman, D.J. (1990). Basic local alignment search tool. J. Mol. Biol. 215, 403-410.

13. Aoyama Y., Horiuchi Т., Gotoh 0., Noshiro M. , Yoshida Y. (1998). CYP51-like gene of Mycobacterium tuberculosis actually encodes a P450 similar to eukaryotic CYP51. J. Biochem. (Tokyo) 124, 694-696.

14. Archakov A.I. and Bachmanova G.I. Cytochrome P450 and Active Oxigen, 1990, Taylor and Francis, London.

15. Archakov A.I., Lisitsa A.V., Gusev S.A., Koymans L., Janssen P. (2001) Inventory of the cytochrome P450 superfamily. J.Mol.Model 5, 140-142.

16. Barton, G. J. and Sternberg, M. J. E. (1987) . Evaluation and improvements in the automatic alignment of protein sequences. Protein Eng. 1, 89-94.

17. Barton, G.J. and Sternberg, M.J.E. (1990). Flexible protein sequence patterns. A sensitive method to detect weak structural similarities. J. Mol. Biol. 212, 389-402.

18. Berger M. P. and Munson P. J. (1991) A novel randomized iterative strategy for aligning multiple protein sequences. Comput Appl Biosci. 7, 479-484.

19. Bundschuh R., Hwa T. (1999) An analytical study of the phase transition line in local sequence alignment with gaps. Recomb 99, Proceedings of the third annual international conference on computational Molecular Biology, 70-76.

20. Cockwell, K.Y., and Giles, I.G. (1989) Software tools for motif and pattern scanning: program descriptions including a universal sequence reading algorithm. Comput Appl Biosci. 5, 227-232.

21. Collins J.F., Coulson A.F., and Lyall A. (1988) The significance of protein sequence similarities. Comput. Appl. Biosci. 4, 67-71.

22. Dayhoff M. 0. (1978) Survey of new data and computer methods of analysis. In Atlas of protein sequence and structure, vol.5, suppl. 3. National Biomedical Research Foundation, Georgetown University, Washington, D.C.

23. Depiereux E, Feytmans E. (1992) MATCH-BOX: a fundamentally new algorithm for the simultaneous alignment of several protein sequences. Comput Appl Biosci. 8, 501-509.

24. Doolittle RF, Johnson MS, McClure MA, Feng DF, Gray J. (1986) Computer analysis of retroviral pol genes: assignment of enzymatic functions to specific sequences and homologies with nonviral enzymes. Proc Natl Acad Sci USA. 83, 764852 .

25. Emmert D.B., Stoehr P.J., Stoesser G., Cameron G.N. (1994) The European Bioinformatics Institute (EBI) databases, Nucleic. Acids Res. 22, 3445-3449.

26. Falquet L. , Pagni M., Bucher P., Hulo N., Sigrist C.J., Hofmann K., Bairoch A. (2002) The PROSITE database, its status in 2002. Nucleic Acids Res. 30(1), 235-8.

27. Feng, D. F. , Johnson, M. S., and Doolittle, R. F. (1985) Aligning amino acid sequences: Comparison of commonly used methods. J. Mol. Evol. 21, 112-125. .

28. Feyereisen R. (1999) Insect P450 enzymes. Annu. Rev. Entomol. 44, 507-533.

29. Fuchs, R. (1990). Free molecular biological software available from the EMBL file server. Comput Appl Biosci. 6, 120-121.

30. Galas DJ, Eggert M, Waterman MS. (1985) Rigorous pattern-recognition methods for DNA sequences. Analysis of promoter sequences from Escherichia coli. J Mol Biol. 186, 117-128.

31. Gonnet, G. H., Cohen, M. A., and Benner, S. A. (1992) Exhaustivematching of the entire protein sequence database. Science 256, 1443-1445.

32. Gotoh 0. (1994) Further improvement in methods of group-to-group sequence alignment with generalized profile operations. Comput. Appl. Biosci. 10, 379-387.

33. Gotoh 0. (1999) Multiple sequence alignment: algorithms and applications. Adv. Biophys. 36, 159-206.

34. Gribskov M, Homyak M, Edenfield J, Eisenberg D. (1988) Profile scanning for three-dimensional structural patterns in protein sequences. Comput Appl Biosci. 4, 61-66.

35. Gribskov M, McLachlan AD, Eisenberg D (1987) Profile analysis: Detection of distantly related proteis. Proc Natl Acad Sci USA 84, 4355-4358.

36. Henikoff S, Henikoff JG.(1992) Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci USA. 89, 10915-10919.

37. Henikoff, S. and Henikoff, J. G. (1993) Performance evaluation of amino acid substitution matrices. Proteins: Struct. Funct. Genet. 17, 49-61.

38. Hertz GZ, Hartzell GW, Stormo GD. (1990) Identification of consensus patterns in unaligned DNA sequences known to be functionally related. Comput Appl Biosci. 6, 81-92

39. McLachlan, A. D. (1972) Repeating sequences and gene duplication in proteins. J. Mol. Biol. 64, 417-437.

40. Mengeritsky G, Smith TF. (1987) Recognition of characteristic patterns in sets of functionally equivalent DNA sequences. Comput Appl Biosci. 3, 223-227.

41. Murata, M., Richardson, J. S., and Sussman, J. L. (1985) Simultaneous comparison of three protein sequences. Proc. Natl. Acad. Sci. USA, 82, 3073-3077.

42. Murphy L.R., Wallqvist A., Levy R.M. (2000) Simplified amino acid alphabets for protein fold recognition and implications for folding. Protein Eng. 13, 149-152.

43. Nebert D. W., AdesnikM., Coon M. J., Estabrook R. W., Gonzalez F.J., Guengerich F.P., Gunsalus I.e., Johnson E.F., Kemper В., Levin W. , et al (1987) The P450 gene superfamily: recommended nomenclature, DNA 6, 1-11.

44. Needleman, S. В. and Wunsch, C. D. (1970) A general method applicable to search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48, 443-453.

45. Nelson D.R. (1998) Metazoan cytochrome P450 evolution. Сотр. Biochem. Physiol. C. Pharmacol. Toxicol. Endocrinol. 121,1522.

46. Nelson D.R. (1999) Cytochrome P450 and the individuality of species. Arch. Biochem. Biophys. 369, 1-10.

47. Ogiwara A, Uchiyama I, Seto Y, Kanehisa M. (1992) Construction of a dictionary of sequence motifs that characterize groups of related proteins. Protein Eng. 5, 479-488.

48. Ohkuma M., Muraoka S., Tanimoto Т., Fujii M., Ohta A., Takagi M. (1995) CYP52 (cytochrome P450alk) multigene family in Candida maltosa: identification and characterization of eight members. DNA Cell. Biol. 14, 163-173.

49. Omura Т., Ishimura Y. and Fudjii-Kuriama Y. (1993) Cytochrome P450, Kodoinsha, Tokyo.

50. Pearson, W. R. and Lipman D. J. (1988) Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA, 85, 2444-2448.

51. Pearson W.R., Robins G., Zhang T. (1999) Generalized neighbor-joining: more reliable phylogenetic tree reconstruction. Mol. Biol. Evol. 16,806-816.

52. Posfai J, Bhagwat AS, Posfai G, Roberts RJ. (1989) Predictive motifs derived from cytosine methyltransferases. Nucleic Acids Res. 17, 2421-2435.

53. Saitou N. (1996) Reconstruction of gene trees from sequence data. Methods Enzymol. 266, 427-449.

54. Sankoff, D., Cedergren, R. J., and Lapalme, G. (1976) Frequency of insertion-deletion, transversion, and transition in the evolution of 5S ribosomal RNA. J. Mol. Evol. 7, 133149.

55. Saqi MA, Sayle R. (1994) PdbMotif-a tool for the automatic identification and display of motifs in protein structures. Comput Appl Biosci. 10, 545-54 6.

56. Saqi MA, Sternberg MJ. (1994) Identification of sequence motifs from a set of proteins with related function. Protein Eng. 7, 165-171.

57. Saraste M, Sibbald PR, Wittinghofer A. (1990) The P-loop-a common motif in ATP- and GTP-binding proteins. Trends Biochem Sci. 15, 430-434

58. Sayle RA, Milner-White EJ. (1995) RASMOL: biomolecular graphics for all. Trends Biochem Sci. 20, 374

59. Schadt EE, Sinsheimer JS, Lange K. (1998) Computational advances in maximum likelihood methods for molecular phylogeny. Genome Res. 8,222-233.

60. Schwartz RM, Dayhoff MO. (1978) Origins of prokaryotes, eukaryotes, mitochondria, and chloroplasts. Science 199, 395-403.

61. Seto Y, Ikeuchi Y, Kanehisa M. (1990) Fragment peptide library for classification and functional prediction of proteins. Proteins 8, 341-351

62. Sheridan RP, Venkataraghavan R. (1992) A systematic search for protein signature sequences. Proteins 14, 16-28.

63. Sherman В. (1950) A random variable related to the spacing of sample values. Ann. Math. Stat. 21, 339-361

64. Smith RF, Smith TF. (1990) Automatic generation of primary sequence patterns from sets of related protein sequences. Proc Natl Acad Sci U S A 87, 118-122.

65. Smith RF, Smith TF. (1992) Pattern-induced multi-sequence alignment (PIMA) algorithm employing secondary structure-dependent gap penalties for use in comparative protein modelling. Protein Eng. 5, 35-41.

66. Sneath PH. (1995) The distridution of the random division of a molecular sequence. Binary 7, 148-152.

67. Sneath PH. (1998) The effect of evenly spaced constant sites on the distribution of the random division of a molecular sequence. Bioinformatics 14, 608-616.

68. Solovyev VV, Makarova KS. (1993) A novel method of protein sequence classification based on oligopeptide frequency analysis and its application to search for functional sites and to domain localization. Comput Appl Biosci. 9, 17-24.

69. Staden, R. (1989) Methods for calculating the probabilities of finding patterns in sequences. Comput Appl Biosci. 5, 89-96.

70. Sternberg MJ. (1991) PROMOT: a FORTRAN program to scan protein sequences against a library of known motifs. Comput Appl Biosci. 7, 257-260.

71. Sternberg, M.J.E. (1991). Library of common protein motifs. Nature 349, 111.

72. Stoesser G., Tuli M.A., Lopez R., Sterk P. (1999) The EMBL Nucleotide Sequence Database, Nucleic. Acids Res. 27, 1824 .

73. Stormo GD, Hartzell GW (1989) Identifying protein-binding sites from unaligned DNA fragments. Proc Natl Acad Sci USA. 86, 1183-1187.

74. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637.

75. Venezia D, O'Hara PJ. (1993) Rapid motif compliance scoring with match weight sets. Comput Appl Biosci. 9, 65-69.

76. Vingron M, Argos P. (1991) Motif recognition and alignment for many sequences by comparison of dot-matrices. J Mol Biol. 218, 33-43.

77. Vingron, M. and Argos, P. (1990) Determination of reliable regions in protein sequence alignments. Protein Eng. 3, 565-569.

78. Waterman, M. S., Smith, T. F. , and Beyer, W. A. (1976) Some biological sequence metrics. Adv. Math. 20, 367-387.

79. Wilbur, W. J. and Lipman D. J. (1983) Rapid similarity searches of nucleic acid and protein data banks. Proc. Natl. Acad. Sci. USA 80, 726-730.