Бесплатный автореферат и диссертация по биологии на тему
Применение методов контролируемой классификации для анализа биологических данных
ВАК РФ 03.00.02, Биофизика

Содержание диссертации, кандидата физико-математических наук, Крестьянинова, Мария Александровна

СОДЕРЖАНИЕ.

ВВЕДЕНИЕ.

ЧАСТЬ I. ОБЗОР ЛИТЕРАТУРЫ.

Глава 1.1. Биочипы: технология изготовления и область применения.

1.1.1 Предпосылки к использованию микрочипов.

1.1.2 Микрочипы фирм Affymetrix, Protogene, Nimble Gen.

1.1.3 Матричные микрочипы с пре-синтезированными зондами.

Глава I.II. Методы обработки и анализа микрочипных данных.

1.11.1 Методы представления, нормализации и трансформации данных в экспериментах с биомикрочипами.

1.11.2 Анализ микрочипных данных методами неконтролируемой классификации.

1.11.3 Анализ микрочипных данных методами контролируемой классификации.

Глава I.III. Специфика постановки экспериментов по экспрессии генов в течение клеточного цикла и возможные виды анализа результатов.

Глава I.IV. Хранение и аннотирование данных о белковых последовательностях.

ЧАСТЬ II. МАТЕРИАЛЫ И МЕТОДЫ.

Глава II.I Материалы.

Глава 11.11 Методы.

11.11.1 Индукционный алгоритм.

11.11.2 Дискретизация по методу Fayyad и Irani.

11.11.3 Определение характеристической выборки.

11.11.4 Метод кривых рабочих характеристик.

11.11.5 Подготовка и анализ данных.

ЧАСТЬ III. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

Глава III.I. Анализ данных по генной экспрессии методом контролируемой классификации.

III.I.1 Поиск правил классификации.

III.I.3 Классифицирующие правила.

I If .1.4 Верификация полученных правил.

Глава 111.11. Идентификация наиболее информативных характеристических мотивов InterPro и исследование влияния качества мотивов на точность автоматической аннотации белковых последовательностей с помощью InterPro.

ВЫВОДЫ.

Введение Диссертация по биологии, на тему "Применение методов контролируемой классификации для анализа биологических данных"

На сегодняшний день усилия исследователей в области молекулярной биологии все больше смещаются от накопления экспериментальных данных о различных биологических объектах к описанию, классификации и анализу уже полученных результатов. В частности, секвенирование геномов и крупномасштабные молекулярно-биологические эксперименты привели к необходимости создания методов анализа большого количества данных. Данная работа посвящена изложению одного из таких подходов, относящегося к классу методов контролируемой классификации, и проверке его эффективности на примере разного типа задач: для анализа результатов биомикрочипного эксперимента по экспрессии генов Saccharomyces cerevisiae в течение клеточного цикла и для функциональной аннотации ^охарактеризованных белковых последовательностей.

Изучение генной экспрессии является одной из самых актуальных проблем функциональной геномики. Крупномасштабные (large-scale) эксперименты по генной экспрессии, позволяющие одновременно получать данные об экспрессии целого генома - это передовая и многообещающая технология в области реконструирования сетей регуляции генов. До настоящего момента было предложено множество способов предсказания исхода лечения, подтверждения или уточнения диагноза или определения потенциальных участников генных регуляторных сетей с применением методов контролируемой классификации. Диагностика рака, туберкулеза, предсказание исхода/влияния лечения являются примерами успешного применения этих методов. Отдельная область применения контролируемой классификации - предсказание функции генов или их продуктов.

Многочисленные успешные проекты по секвенированию геномных последовательностей организмов, самым ярким среди которых является проект «Геном человека», привели к постепенному смещению научно-исследовательской инициативы от геномики в область протеомики, где основной интерес в данный момент сконцентрирован на идентификации всего разнообразия белков и их функций, закодированных в уже известных геномных последовательностях. Основным направлением протеомики является определение/построение регуляторных белковых сетей. Практический выход таких исследований - это установление причин многих заболеваний, методы диагностики стадии заболевания, а следовательно, и обнаружение высокоспецифичных методов лечения с учетом их влияния на организм в целом. Увеличивающееся с каждым днем количество данных требует для их анализа консолидированных усилий специалистов различных областей знания. Здесь особенно важной становится возможность применения методов, позволяющих объединять научную информацию различного рода и делать па их основе точные выводы об исследуемом объекте. Поэтому, именно методы контролируемой классификации привлекают все большее внимание исследователей в области протеомики.

ЧАСТЬ I. ОБЗОР ЛИТЕРАТУРЫ

Заключение Диссертация по теме "Биофизика", Крестьянинова, Мария Александровна

Выводы

1. Разработан и опробован новый метод предсказания изменения экспрессии рассматриваемого гена на основе данных об изменении экспрессии других генов.

2. Определены функции влияния генов друг на друга и на их основе посторосна генная сеть. Доказана принципиальная возможность точного воссоздания генных сетей путем анализа данных крупномасштабных экспериментов по экспрессии генов методами контролируемой классификации.

3. Показано, что полученные зависимости между уровнями экспрессии генов Saccharomyces cerevisiae достоверны, согласуются с опубликованными ранее результатами и отражают основные взаимосвязи между рассмотренными генами.

4. Разработана методика оптимизации параметров алгоритмов контролируемой классификации при построении правил принятия решений для функциональной аннотации ^охарактеризованных белковых последовательностей.

5. Установлено, что разработанный метод позволяет точно идентифицировать наиболее информативные и пригодные для автоматической аннотации методы построения белковых характеристических мотивов.

6. Показано, что полученные правила принятия решений могут служить основой для сравнительного анализа различных методов построения характеристических мотивов и выявления общих закономерностей при их применении для описания белковых последовательностей.

Библиография Диссертация по биологии, кандидата физико-математических наук, Крестьянинова, Мария Александровна, Москва

1. Steen Knudsen. A biologist's guide to analysis of DNA microarray data. 2002, WILEY-LISS.

2. Барский В.E., Колчинский A.M., Лысов Ю.П., Мирзабеков А.Д. Биологические микрочипы, содержащие иммобилизованные в гидрогеле нуклеиновые кислоты, белки и другие соединения: свойства и приложения в геномике. Молекулярная биология. 2002, 36: 563-584

3. Baugh LR, Hill АА, Brown EL, Hunter CP. Quantitative analysis of mRNA amplification by in vitro transcription. Nucleic Acids Res. 2001 Mar 1;29(5):E29.

4. Pierre Baldi, G. Wesley Hatfield. DNA microarrays and gene expression. 2002, Cambridge University Press.

5. Fodor SP, Rava RP, Huang XC, Pease AC, Holmes CP, Adams CL. Multiplexed biochemical assays with biological chips. Nature. 1993 Aug 5;364(6437):555-6.

6. Affimetrix 2000. GeneChip Expression Analysis. Technical manual.

7. Singh-Gasson S, Green RD, Yue Y, Nelson C, Blattner F, Sussman MR, Cerrina F. Maskless fabrication of light-directed oligonucleotide microarrays using a digital micromirror array. Nat Biotechnol. 1999 Oct;17(10):974-8.9. http://brownlab.stanford.edu

8. Shalon D, Smith SJ, Brown PO. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization.

9. Genome Res. 1996;6:639-45.

10. Zamatteo N, Jeanmart L, Hamels S, Courtois S, Louette P, Hcvesi L, Remacle J. Comparison between different strategies of covalent attachment of DNA to glass surfaces to build DNA microarrays. Anal. Biochem. V.280, pp. 143-150 (2000).

11. Livshits M, Mirzabekov A. Theoretical analysis of the kinetics of DNA hybridization with gel-immobilized oligonucleotides. Biophys. J. V.71, pp.2795-2801 (1996).

12. Edman CF, Raymond DE, Wu DJ, Tu E, Sosnowski RG, Butler WF, Nerenberg M, Heller MJ. Electric field directed nucleic acid hybridization on microchips. Nucl. Acids Res. V.25, pp.4907-4914 (1997).

13. Helen C. Causton, John Quackenbush, Alvis Brazma. Microarray gene expression data analysis. 2003, Blackwell.

14. Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C, Aach J, Ansorge W, Ball CA, Causton HC, et al.: Minimum information about a microarray experiment (MIAME) toward standards for microarray data. Nat Genet 2001, 29:365-371

15. Duboit S, Yang Y, Callow MJ and Speed TP. Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Technical report #578, www.stst.berkeley.edu/tech-reports/index.html

16. Quackenbush J. Microarray data normalization and transformation. Nat Genet. 2002 Dec;32 Suppl:496-501.

17. Schuchhardt J, Beule D, Malik A, Wolski E, Eickhoff H, Lehrach H, Herzel H. Normalization strategies for cDNA microarrays. Nucleic Acids Res. 2000 May 15;28(10):E47.

18. Suzuki T, Higgins PJ, Crawford DR. Control selection for RNA quantitation. Biotechniques. 2000 Aug;29(2):332-7.

19. Chatterjee S. & Price B. Regression Analysis by Example (John Wiley & Sons, New York, 1991).

20. Tseng GC, Oh MK, Rohlin L, Liao JC & Wong W.H. Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects. Nucleic Acids Res. 2001, 29, 2549-2557

21. Chen Y, Dougherty ER & Bittner ML. Ratio-based decisions and the quantitative analysis of cDNA microarray images. J. Biomed. Optics 1997, 2, 364-374.

22. Yang YH, et al. Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res. 2000, 30, el 5.

23. Yang IV, et al. Within the fold: assessing differential expression measures and reproducibility in microarray assays. Genome Biol. 2002, 3, research0062.1-0062.12.25