База знаний по цитохромам Р450: разработка и применение

Лисица, Андрей Валерьевич

Бесплатный автореферат и диссертация по биологии на тему
База знаний по цитохромам Р450: разработка и применение
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "База знаний по цитохромам Р450: разработка и применение"

На правах рукописи

ЛИСИЦА Андрей Валерьевич

00305Б0Б1

-»V/

БАЗА ЗНАНИЙ ПО ЦИТОХРОМАМ Р450: РАЗРАБОТКА И ПРИМЕНЕНИЕ

03.00.28 - биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора биологических наук

Москва-2007

003056061

Работа выполнена в Государственном учреждении Научно-исследовательском институте биомедицинской химии имени В.Н. Ореховича Российской академии

медицинских наук

Научный консультант:

доктор биологических наук, профессор,

академик РАМН

Арчаков Александр Иванович

Официальные оппоненты:

доктор биологических наук Гельфанд Михаил Сергеевич

доктор физико-математических наук, профессор

Шайтан Константин Вольдемарович

доктор физико-математических наук Туманян Владимир Гаевич

Ведущая организация

Федеральное государственное учреждение Научно-исследовательский институт физико-химической медицины Росздрава

Зашита состоится «26» апреля 2007 года в 11:00 часов на заседании Диссертационного совета Д 001.010.01 при ГУ НИИ биомедицинской химии им. В.Н.Ореховича РАМН по адресу: 119121, Москва, ул. Погодинская, 10.

С диссертацией можно ознакомиться в библиотеке ГУ НИИ биомедицинской химии имени В.Н. Ореховича РАМН по адресу: 119121, Москва, ул. Погодинская, 10,

Автореферат разослан «_»_2007 года.

Ученый секретарь Диссертационного совета кандидат химических наук ; ** Е. А. Карпова

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

1.1 Актуальность проблемы

Концепция замещения ранее созданных баз данных - статических информационных ресурсов - динамически развивающимися базами знаний обусловлена необходимостью своевременной разноплановой обработки накапливающегося экспериментального материала. Отличительным признаком базы знаний является гибкая структура данных, способная эффективно адаптироваться к быстро меняющимся условиям поставленной задачи. Особенно актуальной такая способность становится в контексте приложений к задачам молекулярной биологии, характеризующимся противоречием между неполнотой отобранных экспериментальных данных и системной целостностью объекта исследования -живого организма

Анализ молекулярных процессов является наиболее детальным способом изучения живых систем, который доступен современным исследователям. Технологически проведение широкомасштабных исследований молекулярных систем стало возможным благодаря созданию высокоэффективных технологий. Одновременно, достижения геномных и постгеномных технологий вывели на первый план задачи, связанные с хранением и обработкой получаемой информации. Качественный скачок в развитии молекулярной биологии, обусловленный внедрением новых технологий и накоплением множества разрозненных, но взаимодополняющих экспериментальных данных, ознаменовался появлением новой научной дисциплины - системной биологии. В рамках системной биологии концепция базы знаний получила признание как формализованный подход для выявления скрытых закономерностей в накопленных данных.

[http://www.ncbi.nlrn.nih.gov/Genbank/index.html] в настоящее время тоже рассматривается в контексте целого арсенала вспомогательных алгоритмических средств работы с данными, т.е. представляет собой базу знаний, объединяемую техническим понятием «комплекс ресурсов N031» [http://www.ncbi.nlm.nih.gov]. Вышеперечисленные системы являются проблемно-ориентированными, что подразумевает хранение информации обо всем разнообразии генов и белков.

С существенным отставанием от глобальных систем хранения информации развиваются объектно-ориентированные базы знаний, к которым относится база знаний по цитохромам Р450. Задачей объектно-ориентированных ресурсов является сбор всех имеющихся данных об одном классе белков.

Объектная ориентированность базы знаний по цитохромам Р450 определяет ее уникальность и очерчивает область ее потенциального применения в научных исследованиях. Разработанная структура базы знаний позволяет в рамках одной

системы параллельно накапливать информацию о структурном и функциональном разнообразии цитохромов Р450. Структурный и функциональный потоки аккумулируют данные независимо друг от друга, формируя объективные предпосылки для развития гипотез о наличии сгруктурно-функциональных взаимосвязей. Развитие гипотезы происходит в контексте определенной статистической или алгоритмической модели, которая строится исходя из одного типа данных, а проверяется на другом. Так, рассматриваемая в работе «островная гипотеза» [№зЫка\¥а, 1993] строения белковых молекул, в рамках базы знаний формализуется в виде статистического метода выявления структурных мотивов двух типов путем сравнительного анализа последовательностей аминокислотных остатков (Т^Ка е! а!., 2003]. Найденные структурные мотивы затем используются для корректировки существующей классификации. Вносимые корректировки, т.е. отличия традиционной классификации от варианта, построенного на основе «островной гипотезы», составляют сущность нового знания о структурно-функциональных взаимосвязях в надсемействе цитохромов Р450.

Важным фактором, определяющим значимость представляемой работы, является функциональная роль ферментов надсемейства цитохромов Р450. Реализуемая цитохромами Р450 реакция монооксигеназного катализа является необходимым звеном в обеспечении жизнедеятельности организмов, начиная с простейших и заканчивая многоклеточными эукариотами. Многогранность каталитических особенностей, структурное разнообразие известных генетических форм, широкий арсенал методов экспериментальных исследований делают цитохромы Р450 актуальным объектом для апробации технологии создания объектно-ориентированной базы знаний.

Цель работы - создать информационно-вычислительный ресурс (базу знаний), позволяющий проводить систематизированный анализ общедоступных данных о структурных и функциональных особенностях белков надсемейства цитохромов Р450. База знаний должна предоставлять интегрированную платформу для проведения исследований надсемейства биоинформационными методами. В рамках достижения поставленной цели сформулированы следующие задачи:

1. Разработать структуру данных и способы автоматизации процедуры пополнения информационного массива; реализовать контекстно-зависимые схемы адаптации структуры данных; обеспечить автоматические средства сопряжения базы знаний с другими информационными системами.

2. Внести в базу знаний сведения о структуре и функции цитохромов Р450, в полном объеме отражающие современный уровень исследований в данной области.

3. Интегрировать в базу знаний базовые алгоритмы биоинформатики, предназначенные для сравнительного анализа последовательностей аминокислотных остатков; разработать интерактивные средства работы с этими алгоритмами.

4. С использованием базы знаний выполнить комплекс работ по анализу структурно-функциональных особенностей цитохромов Р450 и предложить объективные подходы к классификации белков надсемейства.

1.2 Научная новизна и практическая значимость

Впервые показана возможность создания базы знаний и её последующего применения для решения научно-исследовательских задач, связанных с анализом надсемейства цитохромов Р450.

Разработан способ формализации эмпирических знаний, накопленных в результате экспериментов по изучению структуры и функции цитохромов Р450, и предоставлен доступ к широкому спектру биоинформациониых алгоритмов, таких, как алгоритмы выравнивания последовательностей, кластерного анализа, методы построения консенсусных последовательностей и выявления структурно-функциональных мотивов.

Проведены исследования подходов к созданию объективной классификации надсемейства цитохромов Р450 с использованием комбинации хорошо изученных методов биоинформатики. Для этого разработан инструментарий оригинальных методов, включающий:

- метод иерархического выравнивания, позволяющий осуществлять

выравнивание консенсусных последовательностей;

- метод структурно-функционального картирования, предназначенный для

обозначения на аминокислотной последовательности элементов вторичной структуры белка, субстрат-узнающих участков, точечных мутаций, структурно-функциональных мотивов и др.

- метод инвентаризации, позволяющий распределить белки надсемейства по

кластерам и реконструировать последовательность-предшественник для каждого кластера;

- метод индексирования белков, позволяющий сгенерировать целостную модель

эволюционирования белков анализируемой группы от гипотетического белка-прародителя;

- метод выявления структурно-функциональных мотивов, используемый для

обозначения в составе консенсусной последовательности статистически-значимых локальных участков консервативности.

Разработан комплекс подходов и методических приемов, который может быть использован для прогнозирования функциональной специфичности новых форм цитохромов Р450. Информация, содержащаяся в базе знаний, может быть применена при моделировании пространственных структур цитохромов Р450 и при создании структурно-функционапьных моделей. Выявленные структурно-функциональные мотивы могут быть использованы при планировании генно-инженерных экспериментов по созданию искусственных форм цитохромов Р450 с новыми функциями. Практическая роль разработанной базы знаний также важна в качестве интерактивного справочного и обучающего пособия.

дальнейшего рационального планирования научно-исследовательской работы. Апробированные технологические приемы могут быть перенесены на другие группы белков, кроме цитохромов Р450, и представляют практическую значимость с точки зрения развития современных подходов к обработке молекулярно-биологических данных.

1.3 Основные положения, выносимые на защиту

1. База знаний обеспечивает интегрированную платформу для хранения и анализа информации о структурно-функциональных особенностях белков надсемейства цитохромов Р450.

2. База знаний поддерживает основные методы обработки информационного массива и позволяет применять эти методы для выполнения научно-исследовательской работы.

3. Применение базы знаний позволяет систематизировать методы кластерного анализа первичных структур цитохромов Р450, установить наличие мотивов общего и частного характера и применить найденные мотивы для реализации нового способа классификации белков надсемейства цитохромов Р450.

1.4 Апробация работы

Основные положения диссертационной работы были доложены и обсуждены на симпозиумах и конференциях:

7-th International Conference "Biochemistry & Biophysics of cytochrome P450: Structure & Function, Biotehnology & Ecological Aspekts (INCO-TNC Joint Stock Company, 1992);

9-th International Conference "Cytochrome P450: Biochemistry, Biophysics and Molecular Biology" (Zarich, 1995);

3-th IUBMB Company Molecular Recognition (Singapore, 1995);

12-th International symposium on microsomes and drug oxidations (Montpellier France Le Corum, 1998);

International workshop "From Sequence to function: Experimental and Bioinformatic Studies of Cytochrome P450 Superfamily" (Moscow, 2000);

13 International Symposium on Microsomes and Drug Oxidation.-Stresa-Italy.-Satellite Symposium of the VII World Conference on Clinical Pharmacology and Therapeutics (Florence, 2000);

4-th International Conference on Molecular Structural Biology (Vienna, 2001);

12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and Molecular Biology (France, 2001);

International Meeting on Proteome Analysis (Munchen, 2001);

International Conference Genomics and Bioinformatics for Medicine (StPeterburg-Moscow, 2002);

14th International Symposium in Microsomes and Drug Oxidation (Sapporo Japan, 2002);

13-th International Conference on Cytochromes P450 (Prague, 2003);

5th International Conference on Molecular Structural Biology (Vienna, 2003);

Сессия ИВТН (Москва, 2003);

X Российский национальный конгресс «Человек и лекарство» (Москва, 2003); 2nd International conference "Genomics, Proteomics and Bioinformatics for Medicine" (Moscow-Pies-Moscow, 2004);

7Л International symposium on Cytochrome P450. Biodiversity and biotechnology (Japan, 2004);

XII Всероссийская научно-методическая конференция «Телематика'2005» (Санкт-Петербург, 2005);

14* International conference on Cytochromes P450: biophysics and bioinformatics (Dallas, USA, 2005);

HUPO 4th annual world congress (Munich, Germany, 2005); Сессии ИВТН-2006 (Москва, 2006);

5rd International conference on bioinformatics of genome regulation and structure (Novosibirsk, 2006);

3rd International conference "Genomics, proteomics, bioinformatics and nanotechnologies for medicine" (Novosibirsk, 2006); HUPO 5rd annual world congress (Long Beach, California, 2006); Статистика посещения Веб-сайта, на котором размещена база знаний (http://cpd.ibmh.msk.su/), фиксирует более 200 обращений в год, из них 80% - от иностранных коллег.

Результаты диссертации легли в основу работы «База знаний по цитохромам Р450: медицинские и биологические аспекты», удостоенной Премии Правительства Российской Федерации в области науки и техники для молодых ученых (раздел «Медицина») за 2006 год. Получено 2 свидетельства о регистрации программных продуктов для ЭВМ (№2004620199, №2006611941).

1.5 Публикации

Материалы диссертационной работы отражены в 63 публикациях: в 25 статьях и 38 материалах российских и международных научных конференций.

1.6 Объем н структура диссертации

Диссертационная работа изложена на 256 страницах машинописного текста, включая 34 таблицы, 64 рисунка. Состоит из введения, обзора литературы, материалов и методов исследования, результатов и обсуждения, выводов и списка литературы, включающего 275 источников.

2. ОБЪЕКТ И МЕТОДЫ ИССЛЕДОВАНИЯ

2.1 Надсемейство цитохромов Р450

Цитохромы Р450 - надсемейство, насчитывающее более 3 тыс. белков. Ферменты данной группы выявлены во всех царствах живой природы. При этом, несмотря на эволюционную разобщенность видов организмов, цитохромы Р450 сохраняют общность черт первичной структуры и пространственной организации - в этом смысле цитохромы Р450 интересны как объект для изучения общих закономерностей молекулярной эволюции.

Выявление генов, кодирующих цитохромы Р450 в представителях различных царств, свидетельствует о функциональной важности этого фермента и его необходимости для биологических организмов. Предположить общность некоего гена-предшественника для всего надсемейства, который затем наследовался видами по мере развития биосферы, подвергался дупликациям, дивергенции, латеральной диффузии и т.д., в свете современных воззрений на общие тенденции развития живой природы достаточно сложно. С другой стороны, при рассмотрении надсемейства следует особо учитывать доминирование требований к ферментативной функции цитохромов Р450, заключающейся в повышении растворимости веществ в воде. Данное общее начало, частично ограничивая процесс дивергенции дуплицированных генов, закрепляя гены, приобретенные в результате трансфера, и также способствуя конвергенции, определило, по-видимому, современный структурно-функциональный «ландшафт» надсемейства, и, одновременно, сделало его перспективным объектом для исследования в рамках базы знаний.

В эволюционном плане наряду с многообразием форм следует отметить особенности распространения цитохромов Р450 среди филогенетических царств. Если в составе полностью прочитанных геномов бактерий и простейших присутствуют в большинстве случаев 1-5 формы цитохрома Р450 и имеется много примеров отсутствия фермента вообще, то в царстве растений отмечается исключительное многообразие. Так, в геноме двудольного растения A.thaliana -187 форм цитохромов Р450, у однодольных О. saliva - их более 100. Начиная с насекомых наличие цитохромов Р450 в геноме становится обязательным условием существования организма, при этом многообразие форм сокращается по сравнению с растениями -80 форм у дрозофиллы, 50 форм у человека [Nelson, 1998].

С точки зрения каталитической функции цитохромы Р450 участвуют в реакции монооксигеназного катализа, играя в ней ведущую роль за счет способности избирательно связываться с субстратом и ориентировать его в активном центре. Стехиометрические характеристики монооксигеназной реакции, причины избирательного катализа по строго определенным положениям молекулы-лиганда являются предметом тщательного изучения и позволяют объяснить фундаментальные механизмы выполнения белками ферментативной функции.

Функционирование цитохромов Р450 определяется взаимодействием с белками-партнерам. Цитохром Р450 замыкает собой цепочку переноса электронов и использует полученные редокс-эквиваленты для окисления субстрата. В качестве партнеров могут фигурировать как несколько белков (например, НАДФН-цитохром

Р450 редуктаза и цитохром Ь5, адренодоксин редуктаза и адренодоксин) так и один белок - редуктаза.

Со структурной точки зрения цитохромы Р450 характеризуются общностью пространственного фолда, определяемого взаимным расположением высококонсервативных участков. Последние преимущественно располагаются на С-конце последовательности аминокислотных остатков. К ним причисляют: гем пептид, альфа-спирали 1 и К - элементы, которые можно без труда различить как при сопоставлении пространственных структур, так и при множественном выравнивании гомологичных последовательностей.

Номенклатура надсемейства питохромов Р450 поддерживается путем проведения экспертной оценки их структурных особенностей. Основным критерием является сходство первичных структур: в семейство объединяются последовательности с гомологией более 40%, в подсемейство - последовательности, гомологичные на 46% и более [Nelson et а!., 1996]. Наряду с постулированными принципами структурного сходства белков, номенклатура цитохромов Р450 несет черты объединения ферментов по критерию функциональной близости (не имеющему строгой формализации) и на основании сходства структур генов - количество экзонов, сдвиги рамки считывания (на настоящий момент четкой концепции сходства структур генов цитохромов Р450 также не сформулировано).

В организмах животных цитохромы Р450 представляют интерес как ферменты первой фазы трансформации ксенобиотиков, в частности, лекарств и техногенных соединений - прокарциногенов. В связи с этим значительный объем исследовательских работ проводится для определения значимости отдельных форм цитохромов Р450 для метаболизма лекарств и при мониторинге уровня загрязнения окружающей среды. Уникальность функции монооксигеназного катализа привлекает к ферментам надсемейства внимание биотехнологов, а участие этих белков в метаболизме гербицидов и пестицидов позволяет использовать результаты исследований для нужд сельского хозяйства.

2.2 Используемые информационные ресурсы

База знаний совместима с двумя категориями общедоступных информационных ресурсов, применяемых в молекулярной биологии. К первой категории принадлежат проблемно-ориентированные глобальные банки данных, такие как GenBank, SwissProt и PDB. Во вторую категорию входят менее известные широкой научной общественности базы данных, поддерживаемые усилиями узкоспециализированных научных коллективов. Ко второй категории, в частности, следует отнести Веб-сайт, на котором размещается информация об официальной номенклатуре белков надсемейства цитохромов Р450

(http://drneison.utmem.edu/CytochromeP450.html].

Табл. 1. Глобальные информационные ресурсы, используемые при разработке базы знаний по цитохромам Р450-_

Глобальные ресурсы

SwissProt [http://au.expasy.org/sprot/] Первичные структуры белков

GenBank [http://wwvv.ncbi.nlm.nih.gov/Genbank/index.html] Структура генов, последовательности кДНК

Protein Data Bank [http://www.rcsb.org/pdb/home/home.do] Пространственные структуры белков

KEGG [http://www.genome.ad.jp/kegg/] Метаболические пути

HapMap [http://www.hapmap.org] Локализация генов на хромосоме и средства визуализации структуры генов

PubMed [http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed] Литературные ссылки

ChemlDplus [http://chem.sis.nlm.nih.gov/chemidplus/] Структурные формулы химических соединений

Кроме рассмотренных выше основных категорий информационных ресурсов в базе знаний используются вспомогательные источники данных. Примером такого источника может служить база данных структур низкомолекулярных химических соединений СЬетГОрЫ. В табл. 1 систематизированы наиболее важные информационные ресурсы, с которыми сопряжена база знаний по цитохромам Р450.

Узкоспециализированные информационные ресурсы, как правило, являются источником данных о функциональных особенностях отдельных форм цитохромов Р450. С другой стороны, глобальные банки данных играют ведущую роль для получения информации о структуре макромолекул - генов, кодирующих цитохромы Р450, и об их продуктах - белках. Особое место среди источников информации, пополняющих базу данных, занимает Веб-стршшца номенклатурного комитета [http://drnelson.utmem.edu/CytochromeP450.html].

По характеру работы, проводимой с внешним информационным ресурсом в рамках базы знаний, следует выделять автоматический и контролируемый режимы работы. При автоматическом режиме в рамках заданного набора правил база знаний сортирует поступающую информацию и вносит ее в соответствующие поля данных. Контролируемый режим подразумевает интеграцию данных в базу знаний с последующей экспертной доработкой (подтверждением). Предусмотрено итеративное чередование автоматизированного и контролируемого режимов с целью обучения системы способам распознавания новой информации.

Совокупность информационных ресурсов, приведенная в таблице 1, не является статической. Структура и алгоритмическое обеспечение базы знаний по

цитохромам Р450 обеспечивают механизмы привлечения новых категорий информации, используя для этого динамическую модель описания составляющих элементов.

2.3 Алгоритмы работы с первичной структурой белка

В базу знаний интегрирован базовый набор алгоритмов для обработки больших массивов данных по последовательностям аминокислотных остатков. В состав базового набора входят программы локального [Altshui et al., 1990], парного и множественного выравнивания последовательностей [Gotoh, 2000; Gotoh, 1999], алгоритмы построения иерархической кластеризации на основе матрицы парного сходства набора последовательностей [Sneath & Sokal, 1973], методы сегментирования кластеров в составе группы белков [Davies & Bouldin, 1979; Halkidi et al., 2001] и способы построения консенсусных последовательностей по результатам множественного выравнивания [Taylor, 1990].

При работе с парным и множественным выравниванием используется метод рандомизированных запусков для уточнения таких параметров, как штраф за открытие и продление вставки. Оптимальные значения штрафа при парном выравнивании соответствуют максимальному различию в значениях идентичности (или гомологии) между родственными последовательностями (т.е. между последовательностями цитохромов Р450) и случайно сгенерированными символьными строками сравнимой длины. При оптимизации результатов множественного выравнивания рандомизации подвергаются не только значения штрафов за вставку, но и порядок вводимых для выравнивания последовательностей. Эвристический характер применяемого для множественного выравнивания алгоритма PRRP [Gotoh, 1999] обуславливает необходимость рандомизации для достижения оптимального результата - консенсуса с наибольшим количеством консервативных остатков.

Для выявления в составе консенсусной последовательности структурно-функциональных мотивов использовался статистический критерий Шермана [Sherman, 1957; Sneath, 1998]. Критерий позволяет выявить в составе консенсуса множественного выравнивания статистически неслучайные компакгные кластеры консервативных остатков. На основе статистического критерия рассчитывалось информационное содержание консенсусной последовательности, которое затем применялось для определения границ кластеров в составе надсемейства

В работе методы анализа первичной структуры цитохромов Р450 используются в комбинации как друг с другом, так и с другими методами, например с алгоритмом кластерного анализа и алгоритмом выявления структурно-функциональных мотивов. Так, метод инвентаризации основан на комбинации парного выравнивания, кластерного анализа и множественного выравнивания. Метод индексирования использует результаты инвентаризации для расчета парным выравниванием расстояний между белком и консенсусом группы белков. Метод выявления структурно-функциональных мотивов обрабатывает консенсусные

последовательности, генерируемые в результате множественного выравнивания, и позволяет скорректировать результаты кластерного анализа.

В работе применяются следующие методы определения уровня отсечения для процедуры кластерного анализа:

- L-метод, основанный на анализе динамики агломерации [Lewi et al., 1992];

- индекс Джаккарда [Halkidi et al., 2001], позволяющий сравнить два варианта кластеризации между собой по составу кластеров;

- индекс Дэвиса-Болдина [Davies & Bouldin, 1979], основанный на анализе распределения длин ветвей дендрограммы;

- критерий максимума информационного содержания консенсусной последовательности, основанный на анализе структурно-функциональных мотивов.

Общая схема использования алгоритмов анализа первичной структуры белка приведена на схеме 1. Пользователь, принимая за основу некоторую определенную группу белков (в частных случаях, в качестве такого рода группы может фигурировать либо все надсемейство, либо отдельный его представитель), экспортирует ее в модуль аналитической обработки. В рамках, этого модуля пользователь осуществляет поиск гомологичных последовательностей в глобальных банках данных, применяя программу BLAST [Altschul et al., 1990]. В случае если гомологичные белки обнаруживаются и ранее не были аннотированы и помещены в базу знаний, проводится индексация новых поступлений. Метод кластерного анализа позволяет оценить правомочность отнесения нового белка к анализируемой группе; углубленный анализ проводится на уровне структурно-функциональных взаимосвязей.

в базу знаний

Схема 1. Обобщенная схема, иллюстрирующая механизмы обработки первичных структур белков в рамках базы знаний по цитохромам Р450.

ИЛ) *

.иЗ--- 'Л * -

'. Г ■ • ' У.. / ■ \ Ст^да [ [агс№е & ¿омгёнй о1ей]

232жуиепсег

<1.1зга<!: Зяяне... ,! : 1**) М||кп«< | " """" ' ^

2. Сге:*е сгон -4йщ|»ап*у т*гки 232x232 а*Ме<1ЬуЛи*

Црки.1 йаыЛЬ (гопО; } бгайю. .'(.... ИтЛ | [■л е« щиСгк] рОДфлт] (сктгЫпЬс]

сопимнищ; 'Ья*■ г дД^п ь * д№ р^йЛщ; | ' | Рч. | №ыг<| гсишиЬв*: дге*ег 1 , 1

Э. Ргы4игс (: г ■.. >■ -.д г., V дМ^ап//

иеЪмМмаПМйтЦ: озй:! (ко**™*, [ЛитЙнадг*!] Н

1 /А

Рис. 1. Рабочий экран модуля анализа первичных структур белка, предназначенный для пополнения базы знаний ноной информацией.

В результате применения вышеуказанных процедур пользователю предлагается присвоить новому белку систематический идентификатор. При »том наряду с формальным индикатором, вычисленным базой знаний, в ряде случаев предлагается идентификатор, рекомендованный номенклатурным комитетом. Анализируя и подтверждая решения системы на каждом этапе, куратор бшы знаний подготавливает информацию к импорту, после чего новая аннотированная последовательность становится доступной широкому кругу пользователей.

На рис. I представлен рабочий экран модуля, предназначенного для работы с набором первичных структур белков. Модуль включает в себя четыре основных этапа работы: (!) загрузка исходного набора последовательностей в базу знаний (осуществляется автоматически); (2) построение матрицы парных сравнений; (3) проведение кластерного анализа; (4) анализ данных - инвентаризация, выявление структурно-функциональных мотивов и индексация.

2.4 Методы автоматического (текстомного) анализа документов

Автоматический анализ документов является источником информации о функциональных свойствах белков надсемейства цитохромов Р450. Аннотирование функциональных свойств осуществляется путем анализа текстов документов, написанных на естественном языке (английском) и размещенных в системе MedLine. В базу знаний по цитохромам Р450 включены два метода: метод оценки релевантности публикации к тематике информационной системы и метод смыслового анализа текста.

Для оценки релевантности документа используется вычислительный алгоритм, предложенный в работе [Mosteller & Wallace, 1984]. Алгоритм аначизкрует обучающую выборку текстов, сформированную экспертом, и рассчитывает частоту встречаемости каждого термина. Частота встречаемости в обучающей выборке сравнивается с фоновой частотой, оцениваемой по случайно сформированной выборке текстов. Понятие релевантности документа вводится как вероятность встретить термин в документе с заданной тематической направленностью с учетом фоновой частоты встречаемости данного термина в научных статьях. Термины, используемые для определения релевантности документа, являются дискриминаторными.

Алгоритм текстомного анализа, заложенный в базе знаний, кроме определения релевантности документа, осуществляет семантический анализ, как описано в [Muller, 2004]. Для этого определяются маркерные термины или тэги, характеризующиеся высокой частотой встречаемости в обучающей выборке. Специфическая лексика вводится в виде контролируемых словарей терминов. Маркерные и контролируемые термины используются для конструирования семантических шаблонов, позволяющих конвертировать текст в содержимое полей базы знаний.

2.5 Способы оценки взаимоотношений струтура-активность

В базе знаний по цитохромам Р450 реализовано два метода оценки взаимоотношений структура-активность. Первый метод основан на использовании системы прогнозирования спектра активности биологически активного вещества PASS [Poroikov et al., 2003], второй - на применении методов распознавания образов к набору молекулярных дескрипторов химического соединения [Korolev et al., 2003].

Методика прогнозирования спектра активности химического соединения базируется на сопоставлении структурных формул [Borodina et al., 2003]. Модифицированный коэффициент Танимото используется в качестве меры сходства структур, исходя из предположения, что сходство химических структур определяет сходство биологической функции [Васильев и Спасов, 2006]. В приложении к базе знаний по цитохромам Р450 в качестве биологической функции рассматривается взаимодействие определенной формы цитохрома Р450 с заданным химическим соединением.

В качестве входной информации модуль базы знаний получает структурную формулу химического соединения, подготовленную согласно определенному

формату. В качестве выходной информации выдается список форм цитохромов Р450, взаимодействующих с данным соединением. Для каждой формы фермента вычисляется вероятностен я оценка гипотезы о взаимодействии (рис 2).

евл Wew Hsi(j Н С « О f >'-'*>« РтьЯ*

.-.jsfast Activity

Probability

• p s я If -e f. t*

V- ■ QUOOOCO

substrate of CYP1A1 55% substrate of CYP2C9 56%

¿I

Рис. 2. Прогнозирование профиля взаимодействия химического соединения с ферментами иадсемейства цитохромов Р450.

В качестве альтернативного метода прогнозирования используется стандартный подход, основанный на молекулярных дескрипторах. Каждое химическое соединение конвертируется в набор числовых фичико-химичсских характеристик; молекулярный вес, количество -заместителей, коэффициент распределения окГВВСЯ-вода и т.д. База знаний позволяет сформировать статистические списки химических соединений. взаимодействующих с определенными формами цитохромов Р450. После векторизации сформированные списки выдаются в виде таблицы. Формат таблицы совместим со стандартными наборами методов распознавания образов, входящими в состав программного пакета MMLab и языка математического программирования R.

В качестве интерактивного средства обработки данных о физико-химических дескрипторах пользователю предлагается использовать пакет GEPAS [Vaquerizas el al., 2005J доступный в сети Интернет [http^/www.gcpas.orgj. После загрузки данных в систему GEPAS возможно применение к ним широкого спектра методов распознавания образов, включая кластерный анализ, метод опорных векторов, метод упругих кар! и т.д.

Использование кластерного анализа молекулярных дескрипторов позволяет оценить гетерогенность химических структур субстратов (лигандов) различных форм цитохромов Р450 и изучить явления перекрестной субстратной специфичности.

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Разработанная информационная система является основным результатом выполненных работ. Возможность пользования созданной информационной системой в качестве базы знаний доказывается в диссертационной работе путем исследования фундаментальных проблем, связанных с систематикой, эволюцией и функциональной диверсификацией ферментов надсемейства цитохромов Р450. Основное внимание уделяется применению базы знаний для решения поисковых задач; рассматривается общая архитектура информационной системы, и описываются оригинальные методические приемы, позволяющие осуществлять аналитическую обработку данных.

3.1 Описание базы знаний

3.1.1 Общая характеристика

Разработанная база знаний реализует функции сбора и анализа данных. К средствам сбора данных относится комплекс интерактивных подпрограмм, использующих методы обработки первичных структур белков и текстов публикаций на естественных языках. Методы инвентаризации и индексации, лежащие в основе общего алгоритма обработки первичных структур, используются для выявления и систематизации новых форм цитохромов Р450. Средства анализа текстов резюме научных публикаций применяются для пополнения сведений о функциональных особенностях различных форм ферментов.

База знаний реализована в качестве интерактивной информационной системы, совместимой с сетью Интернет. Совместимость обеспечивает, с одной стороны, взаимодействие с основными общедоступными источниками исходных данных, а с другой — служит удобным средством для использования созданного ресурса.

База знаний осуществляет взаимодействие с пользователями в рамках набора сопрягаемых сценариев. Сценарии обеспечивают целенаправленность работа пользователя от момента первичного ознакомления с информационным массивом до генерации обобщающих статистических гипотез. В основу реализованного механизма генерации гипотез положены представления о структурно-функциональном единстве надсемейства. В рамках этой концепции были созданы оригинальные средства для выявления и оценки структурно-функциональных мотивов и для формирования оптимальной картины распределения белков по кластерам; были разработаны средства интеграции структурно-функциональных особенностей с тенденциями молекулярной эволюции и методами статистического анализа функционального разнообразия ферментов надсемейства цитохромов Р450.

Основным инструментом при работе пользователя с базой знаний является механизм формирования выборок. Выборка объединяет в себя ферменты, связанные определенной родственностью, например, сходством структур лигандов и спецификой катализа, особенностям внутриклеточной локализации, видовой специфичностью и др. Критерии создания выборок могут быть различны; вне зависимости от характера критерия, база знаний предоставляет аналитический

аппарат для выявления структурно-функциональных основ предполагаемого пользователем сходства.

Наряду с возможностью применения базы знаний в целях научного поиска, следует отметить ее информационно-справочное назначение. Динамическое пополнение информационного массива обеспечивает системный анализ сведений о белках надсемейства цитохромов Р450. Функциональные возможности базы знаний, такие, как возможность предоставления пользователю статистических справок различного формата, позволяют четко определять тенденции развития современных представлений о надсемейстае цитохромов Р450, использовать систему в качестве интерактивного справочника при подготовке научных публикаций и обеспечивать методические средства для повышения квалификации кадров.

3.1.2 Архитектура базы знаний

Архитектура разработанной базы знаний по цитохромам Р450 представлена на

рис.3.

ЗитобРСО! СепЕМВ1 РОВ КЕЗС НарМар РиЬМей СЬешИ+

ГИПОТЕЗЫ ПРОГНОЗЫ ОЦЕНКИ

________.1_____

Просмотр Обработка Отчеты Запросы

Номенклатура Полиморфизм Метаболизм Р450 растений Р450 насекомых Р450 арабидопсиса

Рис. 3. Архитектура базы знаний по цитохромам Р450.

Загрузка данных в систему осуществляется за счет организованного взаимодействия между автоматическими средствами обработки информации и экспертными оценками. Информация о первичных структурах обрабатывается согласно процедуре инвентаризации (см. далее), в ходе которой проводится кластерный анализ, построение консенсусных последовательностей и выявление структурно-функциональных мотивов. На основании выявленных мотивов присваиваются инвентаризационные идентификаторы каждой форме цитохромов Р450. Инвентаризационные идентификаторы сопоставляются номенклатурным названиям ферментных форм, что позволяет сохранять совместимость вводимых данных с общепринятой системой классификации надсемейства

Источником информации о первичных структурах цитохромов Р450 являются глобальные банки данных, предоставляющие информацию о геномах. Программа локального выравнивания применяется для поиска гомологичных структур; за счет этого происходит пополнение состава семейств и подсемейств. При выявлении новой формы цитохрома Р450 база знаний обращается к сайту номенклатурного комитета с целью присвоения систематического идентификатора. Одновременно, новая последовательность аминокислотных остатков включается в процедуры инвентаризации и индексации, описанные далее. Интерактивные средства для поиска новых форм цитохромов Р450 и интеграции их в состав надсемейства реализованы в отдельных программных компонентах базы знаний. Подробное описание функциональных возможностей этих компонент приводится в диссертационной работе.

Разработанные программные средства представляют также возможность обновления данных о функциональной активности ферментов надсемейства путем внесения информации о характерных субстратах, ингибиторах и индукторах. Для этого используются средства автоматизации смыслового анализа резюме научных публикаций.

Структура программной части базы знаний создавалась с использованием максимально открытой архитектуры, с учетом возможности дополнения и развития системы в будущем. Можно выделить три основных логических модуля базы знаний (два из них реализованы в виде отдельных, обособленных программ, последний представляет собой комплекс программ): а) модуль визуализации текущей выборки позволяет эффективно указать конкретный объект в составе выборки (например, форму цитохрома Р450, семейство или подсемейство), б) модуль представления общей информации по выбранному объекту (статистическая справка), в) средства представления специализированной информации (ДНК, аминокислотная последовательность, список субстратов и многое другое).

Визуализация текущей выборки служит для отображения номенклатуры цитохромов Р450 различными способами, а также для инициирования операций над текущей выборкой (поиск по запросу, подготовка отчетов, выравнивание, кластерный анализ). Различные способы сортировки данных в выборке позволяют пользователю быстро перемещаться по информационному массиву и легко обнаружить интересующий его объект. После выбора объекта, активируется модуль вывода общей информации.

Модуль вывода общей информации работает по-разному, в зависимости от типа выбранного объекта. Если объектом является группа цитохромов Р450 (семейство, подсемейство, белки одного вида и т.п.), то выводится статистическая справка по количеству генов и белков в данной группе. Если же объект является формой цитохрома Р450, то модуль информации сканирует все файлы базы знаний и выводит на экран доступные для данной формы дополнительные сведения по трем категориям: а) структура б) функция и в) сгенерированные данные. Важным свойством модуля вывода информации является возможность скопировать текущий объект (т.е. или форму цитохрома Р450 или их группу) в отдельную выборку.

Каждой из перечисленных в предыдущем абзаце категорий данных сопоставлены специфические средства отображения информации: при выборе

первичной структуры выводится последовательность аминокислотных остатков в однобуквенной кодировке с подсветкой функционально важных областей; ДНК выводится с разметкой кодирующих участков; при выборе функциональной активности выводится список субстратов, индукторов, ингибиторов и характеристических реакций.

Указанная структура построения базы знаний в полной мере отвечает современным возможностям Веб-технологий, основанным на концепции максимально свободной, легко расширяемой архитектуры. Имея достаточную гибкость на уровне программирования, система высоко упорядочена с точки зрения пользователя: пользователь имеет ограниченное количество возможностей навигации, т.е. он фиксируется в рамках заранее продуманных сценариев.

3.1.3 Структурно-функциональные карты

Структурно-функциональное картирование - методический прием, применяющийся в рамках базы знаний по цитохромам Р450 для аннотирования первичных структур надсемейства. Аннотирование включаег разметку на последовательности аминокислотных остатков участков, несущих структурно-функциональную нагрузку. В качестве таких участков рассматриваются элементы вторичной структуры (выявленные методом рентгецо-структурного анализа либо по результатам моделирования), участки узнавания субстрата и консервативные мотивы (см. рис. 4).

(а)

WPRDFIDVYLLRMEKDKSDPSSEF^QNLILTVLSLFFAGTïiÎTSTTI^YGFLIJCJCYPHVTERVOlŒIEQVTGSHRPPALD

KfftiUft'lilSH

-»•ЭЛЕМЕНТ: T302A ТИП: мутация ССЫЛКА:

Vaz AD. Pernecky SJ. Raner GM, Coon MJ. (1996)

Peroxo-iron and oxenoid-iron species as alternative oxygenating agents in cytochrome P450-catalyzed reactions: switching by threonine-302 to alanine mutagenesis of cytochrome P450 234.

(6)

2 fcAFSCRG-K I - A V V 0 P I - f OOYQV I F A N С.....Б

DO L P OAK'

i 8" helix t I C-bet« •

m lei

E С V V f 0 Л > p - . - - E

' ; ; ВС-1оф " ЙД

Consensus.....- ■ ■ ■ ■ -]Pj~-|a|- - ■ j о j • j a ifoT

Рис. 4. (а) Создание структурно-функциональной карты, (б) Фрагмент сравнения структурно-функциональной карты цитохромов Р450 семейства CYP51 и подсемейства CYP2B. Сравнение проведено средствами программного компонента Mal базы знаний, «сфм» - структурно-фукнциональный мотив, «урс» - участок распознавания субстрата. Обозначения групп аминокислотных остатков: а= [FYW]; n=[LIMV]; +:=[KRII|

В состав структурно-функциональных карт включается также экспериментальная информация о точечных мутациях. Указывается позиция аминокислотного остатка и соответствующая ссылка на опубликованные данные.

В ходе выполнения работы структурно-функциональные карты были созданы для 15 форм цитохромов Р450, для которых известны пространственные структуры (рис. 4а). В настоящий момент информация, подготовленная в виде структурно-функциональных карт, доступна для подсемейств CYP1B, CYP2C, CYP3A (эти семейства содержат белки животных) и для 12 семейств цитохромов Р450 бактериального происхождения.

Высокая гомология членов подсемейств CYP1B, CYP2C, CYP3A позволяет переносить структурно-функциональную информацию между сходными структурами. Перенос осуществляется на основании результатов парного или множественного выравнивания (рис. 46).

На рисунке 46 представлен фрагмент выравнивания цитохрома CYP2B4 (сверху) с цитохромом семейства CYP51 (снизу). Фрагмент соответствует участку ВС-петли. Видно, что участки, соответствующие спирали С, практически совпадают. В то же время, в области ВС-петли наблюдаются существенные различия. Данный участок у белка CYP51 представлен достаточно протяженной спиралью B-prim, тогда как у цитохрома CYP2B4 в данном месте расположены бета-структуры (обозначены «Р» на рис. 46). Различие объяснимо с учетом того, что данная область (см. элемент "урс" на рис. 4) является участком распознавания субстрата, а субстратная специфичность сопоставляемых белков различна.

С использованием вышеописанного подхода выравнивания структурно-функциональных карт в ходе выполнения работы была дополнительно проведена аннотация 53-х последовательностей цитохромов Р450, для которых нет экспериментальных данных о пространственной структуре.

3.1.4 Средства текстомного анализа

Для поиска и внесения в базу знаний информации о субстратах, ингибиторах и индукторах цитохромов Р450 был разработан алгоритм анализа резюме научных публикаций.

В качестве обучающих данных алгоритму предоставляется выборка текстов резюме публикаций, сформированная путем экспертной оценки. При создании базы знаний по цитохромам Р450 в основу обучающей выборки были положены литературные ссылки, размещенные в системе Human Р450 Metabolism [Rendic & Di Carlo, 1997]. Размещенные на сайте литературные ссылки были выгружены в автоматическом режиме. Далее, с использованием средств поиска системы PubMed, каждая ссылка транслировалась в уникальный идентификатор статьи (PMID). Из ресурса PubMed резюме публикаций загружались по сформированному списку уникальных идентификаторов. В итоговой обучающей выборке содержалось 750 текстов резюме.

Сравнительная частота встречаемости терминов в обучающей и фоновой выборках использовалась для оценки релевантности документов. В качестве фоновой выборки использовалась коллекция из 36 тыс. резюме, в которых встречается упоминание цитохромов Р450. Частота оценивалась согласно распределению

ассона как вероятность встретить термин в документе с заданной тематической направленностью, с учетом фоновой частоты встречаемости данного термина в научных статьях по тематике цнгохромов Р450. Термины, удовлетворяющие статистическим условиям определения тематики резюме, отбирались в качестве дискриминаторнШ ¡им дальнейшего использования и ходе автоматической обработки новых публикаций (терминология согласно [Mosteller F. & Wallace D„ 19841).

1 ipn анализе частот встречаемости наряду с днекримвдиториыми отбирались так называемые маркерные термины, характеризующиеся высокой частотой встречаемости в обучающей выборке. В категорию маркеров вошла общеупотребительная лексика, применяющаяся при описании экспериментов с ферментами наассмейства штсохромов P45G. В дальнейшем, маркерные термины были использованы для семантического анализа содержания резюме научных публикаций.

Частотный анализ был также применен для формирования контролируемых словарей терминов. В данном случае критерием отбора являлась низкая частота встречаемости термина. Подавляющее большинство отобранных таким образом терминов представляют собой номенклатурные названия химических соединений -субстратов, ингибиторов и индукторов шлокромов Е'450. Контролируемые едонарк дополнялись также названиями видов экспериментальных животных, названиями тканей и клеточных коммартментов, наименованиями широко используем ых клеточных линий, номенклатурными и тривиальными названиями форм цитохромов Р450.

Экспертная оценка

DC HTOROi PI A#J DBOSTEffOHE t»!onat [ tolh. SUBSTRATES of 7B1-HUMAH

ПдоЧОЧ ТАДОиЩТОХЧЛ^ОН [ Eflznsmt: OX'iiiTePCL jMWA-HTO

r DEHYDROEPIAHOROSTEROHe

- STATUS ---

V Positive J Negative

- REFERENCE-

PubMed: 123M533 y{

[.MOLIHc! ,

SyHmyntfAirgrTj'rtl '4.; A V)

■ PubMed: 12330533 (Full text]-

and 1 HketpeteroW rWucrn» activity In IN human tjriin.

SteAtJiv^s,-i vbA/htht tii*ca*it9 MA^^ ****** tfvt П'Гг.ии i" -.i ¿i Jw

JlMirЯЙ^^С

flirt* JHvd it* SulpA^ln Л - ГПЦМП.Ц-а 'г.' Г'.ё-'-i -о" rfl (unrfcij,

Ы V " " Л ' ->x: 'Л' ' ' Л BA* ' I' ...i'lilli. ^л .".Г Г- о

Ifufcnl CWe r^ri^t ll'jriv 1st |*c frti rirrtet flvf.

1ПС1 nhtdiK ЛБЯИГйиЗ rr^piii :fli rjV Щ rjr^ А*" н '«H fi'fl^yn . I'I

Схема 2, Применение методов семантического анализа научных публикаций в базе знаний по цитохромам Р450.

Процедура автоматического (текстомного) разбора текста резюме релевантной публикации была реализована следующим образом. Из каждого предложения, встречающегося в резюме обучающей выборки, были элиминированы все термины, кроме маркерных. Сформированные указанным образом шаблоны предложений сравнивались друг с другом с целью выявления наиболее часто встречающихся конструкций. Выявленные конструкции анализировались экспертами и оформлялись в виде типовых шаблонов. Указывались контексты, в рамках которых термин контролируемого словаря может быть классифицирован либо как субстрат, либо как индуктор, либо как ингибитор фермента надсемейсгва цитохромов Р450.

Схема 2 иллюстрирует общие принципы применения методов автоматизированного анализа публикаций в рамках созданной базы знаний. На первом этапе оценивается релевантность публикации. Далее, с использованием семантических шаблонов текст на естественном языке разбирается и транслируется в экспертную анкету. В экспертной анкете экстрагированная информация разнесена по формальным полям базы знаний. Эксперт проводит анализ анкеты, подтверждает, дополняет либо отклоняет решения автоматизированной системы. Экспертная оценка позволяет внести новую информацию в базу знаний и одновременно пополнить объем обучающих примеров. Циклический характер процедуры способствует повышению качества автоматизированного семантического анализа.

В работе показано, что использование методов текстомного анализа значительно повышает эффективность внесения данных в информационную систему. Уровень ошибок при определении релевантности не превышал 30%. При семантическом разборе уровень ошибок поднимался до 45-50%, однако, большинство ошибок было связано с внесением лишней информации, а не с упущением важных данных. Таким образом, большинство действий эксперта было связано с отклонением недостоверно внесенных данных, а не с вводом новой информации.

3.2 Объем собранных данных

Объем данных, введенный в базу знаний, постоянно обновляется за счет работы группы экспертов. В соответствии с общей схемой организации информационной системы вводятся данные о новых структурах цитохромов Р450, а также об их функциональной активности. По состоянию на начало 2006 г. общее количество форм цитохромов Р450 составляет более 2 тыс. (см. табл. 2)

Наибольшее количество генов, отнесенных к надсемейству цитохромов Р450, выявлено в геномах животных. Треть от общего количества цитохромов Р450 содержится в геномах растений, при этом доля растительных форм постоянно возрастает.

В табл. 3 сведена информация о функциональных свойствах цитохромов Р450.

Из табл. 2 и 3 видно, что экспериментальные данные о функциональных свойствах имеются только в отношении незначительного количества (13%) генов, кодирующих цитохромы Р450. При этом большинство фактов фигурируют как положительные утверждения, констатирующие наличие взаимосвязи между

ферментом и лигандом; фактов, базирующихся на отрицательных утверждениях, т.е. указывающих на отсутствие взаимосвязи, на порядок меньше.

При размещении информации о функциональных свойствах формы фермента в качестве основания указывается литературная ссылка и загружается соответствующее резюме публикации. Одновременно ведется работа по дополнению ссылок полнотекстовыми публикациями, источником которых является либо система РиЬМеёСегЛга], либо частная переписка с авторами. К сожалению, как будет показано далее, разрыв между структурными и функциональными данными растет.

Табл. 2. Данные о первичных структурах цитохромов Р450, размешенных в базе знаний на январь 2006 г.__

Название Описание Число

выборки генов\белков

COMPLETE Полная выборка, состоит из всех известных форм цитохромов Р450 2239

ANIMAL Цитохромы Р450 в геномах животных и человека 1174

PLANT Цитохромы Р450 в геномах растений 650

FUNGI Цитохромы Р450 в геномах дрожжей 200

BACTERIA/ PROTISTA Цитохромы Р450 в геномах бактерий и простейших 207

CYP51 Семейство стероловых деметилаз, которое предположительно являются родоначальником всех современных форм цитохрома Р450 42

PDB Цитохромы Р450, для которых известны трехмерные структуры 17

Табл. 3 Информация о функциональных свойствах цитохромов Р450 в базе данных на январь 2006 г.__

Описание Число

записей

Количество форм цитохромов Р450 с 276

аннотированными функциональными свойствами

Количество химических соединений, 1708

взаимодействующих с ферментами надсемейства

из них субстратов 1223

индукторов 115

ингибиторов 484

Количество резюме тематических публикаций 2044

3.3 Верификация виртуального эксперимента

Применение методов биоинформатики требует постановки контрольных экспериментов, направленных на оценку степени достоверности получаемого результата и его объективности.

В работе используются два способа независимой проверки объективности получаемого результата Первый опирается на понятие согласованности результатов, получаемых одним и тем же методом, запускаемым с различными параметрами. В случае, если в рамках используемой алгоритмической схемы варьирование входных параметров после определенного количества итераций стабилизирует конечный результат (т.е. изменение результирующей картины при дальнейшем варьировании параметров пренебрежимо мало), данный алгоритм считается объективным. Примеры применения такого рода стабилизирующих схем приведены на рис. 5(а, б).

О - цитофсмы РЗЕО жйвотяых • • ии?бхроод Р4£0 бэктврйй

4 6 8 10 12 14 16 18 20 Номер рандомизации

(б)

вороягкен. юнтешя ннаека Ш

2 4 6: Номер ¡»наоыкзацйй

{в)г=0

'о'-лос'йдбйтб^ьй'^стй ^то<рсмсз Р450" к-случайные последовательности t ♦- последовательности с

учртом частоты встречаемости остатков

20: .30 40 50 60 штраф за вставку (0

Рис. 5. Способы верификации результатов виртуального эксперимента: (а) стабилизация плотности консенсусной последовательности множественного выравнивания, построенного для различных выборок цитохромов Р450; (б) стабилизация порядка следования белков в протеомном индексе надсемейства; (в) подбор оптимального штрафа за вставку.

На рис. 5а показано, как после 12-18 итераций плотность консенсуса -численный показатель эффективности множественного выравнивания - выходит на плато. При каждой итерации изменяется порядок следования записей во входном файле, содержащем последовательности и значения штрафов за открытие и продление вставки. Видно, что плотность консенсусной последовательности увеличивается с 31% до 36%, что существенно, учитывая, что общая длина выравнивания - 600-700 позиций.

Эффект, отображенный на рис. 56 определяется субоптимальным характером парного выравнивания: счет динамического программирования достигает максимального значения только при определенных значениях штрафа за вставку. Поскольку протеомный индекс надсемейства строится на основании счетов динамического программирования, то порядок следования объектов (консенсусов семейств в данном случае) изменяется с вероятностью около 15%, что отражено пунктиром на рисунке. После ввода в алгоритм построения индекса дополнений, позволяющих отобрать максимально возможный счет динамического программирования, достигается стабилизация индекса, и вероятность изменения порядка следования снижается до уровня 1,5%.

Второй принцип верификации основан на анализе поведения аналитических алгоритмов на рандомизированых наборах исходных данных. Критерием объективности является способность вычислительного метода различать стохастическую информацию - шум от информационно нагруженного сигнала. Так, например, случайно сгенерированные последовательности символов, кодирующих аминокислотные остатки, позволяют найти оптимальные значения параметров парного выравнивания (рис. 5в), оценить границы применимости метода кластерного анализа и подтвердить эффективность предлагаемого статистического критерия.

Для контроля достоверности результатов парного выравнивания, значение идентичности между родственными последовательностями цитохромов Р450 сравнивается со значением, полученным для случайных наборов букв соответствующей длины. Из рис. 5в видно, что хотя наибольшее значение идентичности достигается на уровне штрафа за открытие вставки 5-6, предпочтительней является область больших значений штрафа 20-40. На этом интервале различие между случайными и родственными последовательностями максимально.

При сравнении консенсусных строк, полученных множественным выравниванием цитохромов Р450 одного семейства и цитохромов Р450 разных семейств, установлено следующее. При одинаковой плотности консенсуса, т.е. когда в консенсусе членов одного семейства и консенсусе членов разных семейств присутствует одинаковое количество консервативных остатков на единицу длины, значения информационного содержания различны. Это означает, что величина информационного содержания чувствительна к характеру распределения консервативных остатков, а не просто к их количеству. Это свойство информационного содержания позволяет выявить семейства цитохромов Р450 за счет выраженного смещения максимума значений вправо по оси абсцисс.

3.4 Применение базы знаний в научной работе

3.4.1. Инвентаризация и индексация надсемейства

В диссертационной работе предлагается объективный подход к созданию целостной систематики белкового надсемейства. Подход основан на выполнении комплекса вычислительных процедур обработки данных по первичным структурам цитохромов Р450. На этапе инвентаризации осуществляется распределение белков по группам [Lisitsa & Archakov, 2003]. Основанием для отнесения белков к одной группе является сходство первичных структур. Для формирования групп используется метод кластерного анализа.

На последующем этапе анализа надсемейства - этапе индексации -осуществляется присвоение белкам уникальных идентификаторов (кодов). Код вычисляется путем численной оценки эволюционного расстояния, «пройденного» каждым белком от гипотетического белка-прародителя. Реконструкция белка-прародителя осуществляется путем проведения множественного выравнивания в группах гомологичных белков с последующим построением консенсусной последовательности.

В ходе инвентаризации были показаны границы статистически значимого уровня сходства последовательностей аминокислотных остатков. Анализ распределения счетов локального выравнивания позволил выявить пороговые значения, определяющие принадлежность аминокислотной последовательности к надсемейству. В ходе контрольного эксперимента использовалось распределение счетов локального выравнивания, полученное для случайных последовательностей. Из рис. 6 видно, что наиболее выраженный максимум гистограммы распределения счетов локального выравнивания приходится на значение 100 битовых единиц. Следовательно, при проведении аннотации новых геномов, последовательности, показывающие большие значения, могут быть отнесены к надсемейству Р450 автоматически. Значения меньше 100 битовых единиц, но превышающие пороговое значение 50 битовых единиц, установленное для случайно сгененированных последовательностей, принадлежат к так называемой «сумеречной зоне» (twilight zone). В том случае, если значение битового счета попадает в интервал «сумеречной зоны», автоматическое отнесение его в состав надсемейства не производится. В большинстве случаев значения битового счета в диапазоне от 50 до 100 единиц указывают на то, что анализируемая последовательность является фрагментом структуры цитохрома Р450. Указанные формальные критерии, основанные на интервальных оценках счета локального выравнивания, используются в базе знаний для автоматизированной актуализации данных о разнообразии первичных структур цитохромов Р450.

Общие и частные структурно-функциональные мотивы в цитохромах Р450. Возможность проведения автоматического аннотирования с использованием программы локального выравнивания позволяет предложить гипотезу о наличии элементов общего и частного в структуре белков надсемейства цитохромов Р450. Гипотеза основывается на анализе распределений счетов локального выравнивания (рис. 6а). Кроме определения формальных границ надсемейства, распределение

счетов обладает еще одной особенностью, заключающейся в наличии трех минорных пиков (обозначены «*» на гистограмме).

(a) CYP vs CYP

7000

'i 6000

; 4ооо

! зооо

; 2000

И tío 200 300 400 500 600 700 В00 900

i.....: Битовый счет

"сумеречная зона"

(6) Случайные последовательности

1000

800

600

® 400

V 200

60 70 Битовый счет

Рис. 6. Распределение счетов локального выравнивания: (а) для надсемейства цитохромов Р450 и (б) для случайно сгенерированных последовательностей сравнимой длины и с сохранением характерных для цитохромов Р450 особенностей аминокислотного состава. Знаком «*» обозначены минорные пики.

Анализ результатов локального выравнивания показывает, что максимальный первый пик формируется, главным образом, за счет совпадения в ультраконсервативных участках спирали I и гем-пептида, присущих все членам надсемейства. С другой стороны, минорные пики формируются за счет локальных участков сходства, характерных для отдельных семейств и подсемейств.

Таким образом, в работе мотивы общности были определены как элементы, обеспечивающие структурное единство надсемейства и позволяющие определять цитохромы Р450 среди белков других надсемейств, а мотивы частного - как элементы, отвечающие за проявления специфической функциональной активности конкретных форм фермента. Наличие мотивов общего наблюдается в форме наиболее выраженного, первого пика на гистограмме распределения счетов локального выравнивания, а наличие мотивов частного - в форме минорных пиков (рис. 6а).

В основе реализованной в базе знаний процедуры инвентаризации лежит итеративный подход, сходный с подходом, применяемым в программе Р81-ВЬА8Т [АИясЬи! а1., 1997]. На каждой последующей итерации выборка, состоящая из аннотированных последовательностей цитохромов Р450, используется в качестве запроса для выявления новых гомологов в глобальных банках данных. Выявленные гомологичные последовательности присоединяются к выборке. Далее проводится кластерный анализ, множественное выравнивание белков в составе кластеров и распознавание структурно-функциональных мотивов (см. далее). Итогом анализа является подтверждение гипотезы о принадлежности белка к надсемейству и размещение его в составе соответствующей классификационной категории.

В работе детальному анализу подвергаются субъективные факторы, которые могут повлиять на отнесение того или иного белка как к самому надсемейству

цитохромов Р450, так и к отдельным семействам и подсемействам в его составе. Применение формальных критериев позволяет уточнить классификационный профиль надсемейства цитохромов Р450. Так, например, было выявлено, что оптимальное соответствие между составом автоматически сформированных кластеров и номенклатурных категорий - семейств - достигается на уровне 35% идентичности, что несколько ниже, чем общепринятый порог 40%.

В ходе изучения особенностей различных алгоритмических подходов к объективизации результатов кластерного анализа были получены результаты, свидетельствующие о неприменимости ряда устоявшихся концепций молекулярной эволюции к данному надсемейству белков. Кластерный анализ, проведенный в соответствии со степенью сходства первичных структур, не позволяет восстановить филогенетическую историю развития видовой специфичности. Несмотря на наличие узлов бифуркации, соответствующих событиям дивергенции классов, отрядов и т.д., эффекты конвергенции и латеральной диффузии генов создают фоновый «эволюционный» шум, что выражается в необратимых искажениях при проекции дендрограммы кластеризации на временную шкалу. В текущей номенклатуре надсемейства цитохромов Р450 обнаруженный эффект, по-видимому, выражается в наличии существенного количества отклонений от постулированных формальных правил классификации.

х <

оо

S X

ш <

О. Я са

о ш

s X

а. <

а ш s

КОНС. НАДСЕМ-ВА

Присваивание

[000.000.000]

МНОЖЕСТВ- ■ ВЫРАВ-Е

СРАВ№НИЕ роа.ооо.ооо] с КАЖДЫМ КОНС. СЕМ-ВА

КОНС. СЕМ-ВА

Присваивание

[xxx.000.000]

МНОЖЕСТВ. ■ ВЫРАВ-Е

Ni СРАВНЕНИЕ IxxxXOO.OOOJ С КАЖДЫМ КОНС. ПОДСЕМ-ВА

КОНС. ПОДСЕМ-ВА

'рисвшвание

lxxx.vw.000] [

МНОЖЕСТВ. \ ВЫРАВ-Е

I последовательность]^

Присъаивание

СРАВНЕНИЕ [xxx.wv.000] С КАЖДОЙ ПОСЛЕДОВАТ.

[xxx.wvzzz]

а.

S §

Рис. 7. Алгоритм индексации белкового надсемейства (см. описание в тексте).

Подход, развиваемый в рамках работы и получивший название индексаг1ии надсемейства, позволяет преодолеть ограничения молекулярно-эволюционных позиций, уравнивающих дендрограмму кластерного анализа с эволюционным древом. На рис. 7 отображена общая стратегия индексации, включающая применение иерархического выравнивания к результатам кластерного анализа.

Процедура индексации подразумевает последовательное замещение первичных структур, входящих в кластеры, реконструированными предковыми последовательностями, полученными путем построения консенсуса множественного выравнивания. При таком подходе удается минимизировать искажения, обусловленные не только уже упоминавшимися факторами (дрейф и конвергенция генов), но и различным числом последовательностей в группах цитохромов Р450.

При замещении группы родственных структур, кодирующих ферменты, одной консенсусной последовательностью, предполагается, что последняя несет в себе структурные компоненты, необходимые для реализации ферментной функции, обеспечивающей родство белков группы. Следовательно, можно допускать наличие сходных черт (структурных элементов) у гипотетической последовательности-прародителя группы.

В работе доказывается правомочность вышеизложенной трактовки понятия консенсусной последовательности в свете современных сведений о молекулярных механизмах монооксигеназного катализа. При этом обосновывается (для случая надсемейства цитохромов Р450) отказ от молекулярно-эволюционнош подхода, оперирующего понятиями дупликации и последующей дивергенции генов, в пользу структурно-функциональной классификации кодируемых продуктов - белков. Указание на структурные и функциональные особенности белков в качестве основы для систематизации надсемейства нашло свое отражение в термине протеомный индекс надсемейства.

Каждому объекту индексации присваивается трехпозиционный код (индекс). В индексации принимают участие объекты четырех типов - консенсус надсемейства (является началом координат и имеет индекс 00.00.00), консенсусы семейств, консенсусы подсемейств и последовательности белков. Консенсусы генерируются при помощи иерархического множественного выравнивания. Затем, парное выравнивание применяется для вычисления расстояния между соподчиненными уровнями иерархии надсемейства. Для консенсусов семейств оценка сходства с консенсусом надсемейства позволяет присвоить первую позицию индекса Чем большее значение индекса - тем более удален консенсус семейства от консенсуса надсемейства. Степень удаленности консенсусов подсемейств от консенсусов семейств в свою очередь используется для определения второй позиции индекса, а степень удаленность белков от консенсусов подсемейств - для определения третьей позиции индекса.

На рис. 8а видно, что при использовании подхода инвентаризации в консенсусных последовательностях сохраняются основные структурно-функциональные элементы, обеспечивающие целостность пространственной организации белка и специфичность каталитической активности. К таким участкам относятся: трансмембраный домен и пролиновый «якорь» (для белков, локализованных в мембране ЭПР либо в митохондриях), участок альфа-спирали С, обеспечивающий (предположительно) транспорт электронов в активный центр фермента, фиксирующий аппарат тема и др.

С другой стороны, упорядочивание белков надсемейства по удаленности их первичной структуры от реконструированного прародителя-консенсуса, отвечает, в определенной мере, современным представлениям об эволюционном развитии живой

природы: наибольшее чист бактериальных цитохромов Р4И) (семейства /-50) оказываются наиболее близкими к консенсусной последовательности надсемейства. По мере уменьшения степени структурного родства консенсусов семейств с консенсусом надсемейства, доля бактериальных цитохромов уменьшается и растет доля консенсусов цитохромов Р450 животных (рис, 86).

(а)

узнавание субстрата

—с

(рансмемб; домен

ПрОрИНОЕ

кластер

ыи

ВС петли

аС

(И

петля

формирование активного центра фермента

хжъ

нэа и моде истине

с радуктезой

фиксация гема

н>

_ и

фиксация протона и мопенуяу О2 формирование канала доступа" субстрата

РАСТЕНИЯ ЖИВОТНЫЕ

вида

ЖИВОТНЫЕ.

БАКТЕРИИ

ГРИБЫ

1 животные

РАСТЕНИЯ

Рис. 8. Результаты индексации надсемейства цитохромов Р450: (а) структурные элементы, выявленные в консенсус ной последовательности надсемейства с их функциональной аннотацией: М - меандр, П) - гем-пептид, «. - альфа-спираль, [) -бета-структура; (б) реконструкция эволюционных взаимоотношений царств живой Природы на основе протеомного индекса, (в) - то же, но без включения консенсусов семейств С,е1е$>апз.

РАСТИМАЯ

ЖИВОТНЫЕ

ГРМ6Ы

На рис. 86 показано, как представители различных царств живой природы распределились по частям индекса. Бактериальные, животные и растительные цитохромы Р450 представлены одинаковым количеством кластеров в индексе (-29%), при этом для цитохромов дрожжевого происхождения имеется только 19 кластеров (-13%). Для достижения сбалансированной картины при подготовке диаграмм на рис. 8 каждый кластер дрожжей считался за два.

Таким образом, цитохромы Р450 бактериального происхождения расположены наиболее близко к консенсусу надсемейства. Возможно, что в ходе молекулярной эволюции в бактериях появились белки, которые соответствуют белкам, существовавшим на ранних стадиях эволюции эукариот. В этом смысле, бактериальные цитохромы Р450 можно рассматривать в качестве предшественников эукариотических форм. Безусловно, следует оговориться, что бактериальные цитохромы Р450 лишь выглядят как предшественники в силу специфических особенностей эволюционирования.

На другом конце шкалы в определенной степени превалируют цитохромы Р450 грибов и высших растений. Высшие растения по оценкам появились около 0,5 млрд. лет назад, приблизительно одновременно с ракообразными. В этом случае тоже прослеживается корреляция между молекулярной эволюцией и макроэволюцией.

Делать какие либо обобщения в отношении филогенетического расположения представителей царства грибов преждевременно, т.к., во-первых, количество известных форм цитохромов Р450 грибов невелико, а, во-вторых, имеющиеся формы получены исключительно из дрожжей.

Группа кластеров цитохромов Р450 животных не заняла доминирующего положения ни в одной из частей индекса. Это можно объяснить, если учесть тот факт, что 40% кластеров животных сформированы цитохромами Р450 C.etegans. Прародители современных нематод возникли более 1,5 млрд. лет назад, и, с учетом этого, интересно отметить, что 61% всех животных кластеров первой трети индекса составляют именно кластеры C.elegans. В остальных двух частях индекса доля кластеров C.elгgans не превышает 20% (рис. 8в).

Полученные в ходе инвентаризации данные обозначили проблему фундаментального характера, заключающуюся в определении понятия кластера белков надсемейства цитохромов Р450. Граничные условия разделения кластеров, очевидно, влияют как непосредственно на состав консенсусных последовательностей, так и на общее распределение белков по отношению к гипотетическому прародителю. Далее рассматриваются результаты, полученные в ходе решения задачи нахождения оптимального разбиения надсемейства на кластеры с привлечением концепции структурно-функциональных мотивов.

3.4.2 Структурно-функциональные мотивы и их применение

Выявление структурно-функциональных мотивов. В работе проводится

сравнительный анализ различных подходов к определению в наборе первичных структур белков статистически значимых участков локального сходства. Сравнительному анализу подвергаются: критерий серий, метод локального выравнивания, и оригинальный метод, основанный на статистическом критерии Шермана [ЗпеаЛ, 1998].

Критерий серий [Айвазян с соавт., 1983] является упрощенным способом оценки характера распределения консервативных остатков в консенсусе, основанным на оценке наиболее протяженного непрерывного участка сходства между набором выровненных первичных структур. Результаты, полученные с применением критерия серий, показали, что, в случае наличия четкой гомологии, критерий пригоден для градации между группами родственных и неродственных белков (в качестве родственных использовались последовательности, относящиеся к одному семейству цитохромов Р450, в качестве неродственных - относящиеся к разным семействам). Однако недостатки критерия проявляются в том случае, если сходство между родственными последовательностями неочевидно.

Методы, основанные на оценке совокупности участков локального выравнивания, оказались более адекватны для обнаружения сходства последовательностей белков надсемейства цитохромов Р450. В основу правомочности этого утверждения легли данные о корреляции между численными оценками характера распределения консервативных остатков в консенсусной последовательное™, полученными при помощи программы локального выравнивания BLAST, и аналогичными оценками, сделанными при помощи критерия Шермана (см. рис. 96). Расчет критерия Шермана заключается в статистической оценке характера распределения консервативных остатков в консенсусной последовательности, т.е. в обобщенном представлении результатов множественного выравнивания, как совокупности участков локального сходства При адаптации указанного критерия к задачам диссертационной работы были внесены алгоритмические изменения; правомочность внесенных изменений подтверждается полученными результатами [Lisitsa et al., 2003].

а) Группы цитохромов Р450, сформированные 6) Семейства цитохромов Р450 случайным образом

Рис. 9. Корреляция между счетом локального выравнивания (В) и оценкой, вычисляемой на основе критерия Шермана (Б), для различных выборок: (а) выборка, содержащая представителей различных семейств цитохромов Р450 и (б) выборки цитохромов Р450, относящихся к одному семейству.

Для доказательства значимости гипотезы о наличии в последовательностях белков надсемейства цитохромов Р450 двух типов структурно-функциональных мотивов была разработана специальная методика Основу разработанной методики составили методы корреляционного анализа. Корреляция между результатами, получаемыми двумя независимыми алгоритмическими методами (ВЬАБТ и критерий Шермана), рассматривалась в качестве подтверждения гипотезы о применимости обоих критериев для выявления структурно-функциональных мотивов.

На рис. 9а показано, как при формировании случайных выборок последовательностей нарушается корреляция между согласованными оценочными критериями. Включение в выборку представителей различных семейств приводит к нарушениям корреляционной зависимости между двумя алгоритмами (коэффициент линейной корреляции - 0,47). С другой стороны, представители одного семейства, демонстрируют хорошую согласованность на всей области определения (коэффициент линейной корреляции - 0,98). Эти данные указывают на применимость оценок, основанных на анализе локального сходства последовательностей, для определения границ семейств цитохромов Р450.

Критерий наличия двух типов структурно-функциональных мотивов в консенсусных последовательностях семейств и подсемейств позволяет провести уточнение границ групп, получаемых в результате кластерного анализа. В работе рассматривается несколько подходов, позволяющих определить границы кластеров. В качестве наиболее простого подхода употребляется Ь-метод (метод анализа динамики агломерации), основанный на анализе зависимости числа кластеров от выбранного уровня отсечения. При аппроксимации зависимости двумя прямыми в качестве оптимального уровня отсечения выбирается точка их пересечения. Эта точка соответствует выраженному изменению скорости слияния объектов в кластеры и может служить граничным условием при проведении иерархического кластерного анализа.

Табл. 4. Границы семейств и подсемейств в составе надсемейства цитохромов Р450, установленные с применением Ь-метода. М/А - не определен.__

Уровень отсечения Над-семейство Белки жнвотных Белки бактерий Белки грибов Белки растений

Семейства 39% 30% 39% 31% Ы/А

Подсемейства 62% 64% К/А Ы/А

Применение Ь-метода к выборке структур цитохромов Р450 не привело к получению однозначно интерпретируемого результата [Ыв^а е1 а1., 2003]. Скорость агломерации была монотонна на всем протяжении области определения; соответственно, результирующая аппроксимация прямыми характеризовалась низкой степенью достоверности. Изучение данного феномена показало, что причина неприменимости Ь -метода для задачи выявления групп в составе надсемейства

цитохромов Р450, заключается в неоднородности законов кластерообразования в пределах выборки. Так, для выборки, состоящей из цитохромов Р450 животных, граница отсечения семейств проходит на уровне 30%, тогда как для белков низших грибов эту границу следует установить на уровне 39% (см. табл. 4). В группе белков растений границы кластеров размыты и не выявляются Ь-методом. Значения для всего надсемейства - 39% для семейств и 62% для подсемейств, - являются суперпозицией уровней отсечения различных групп. Эти границы также нечетко определяются Ь-методом.

Табл. 5. Уровни отсечения кластеров, установленные для семейств цитохромов Р450

с использованием различных методов.__________

№ Метод Граница семейства Индекс

(% идентичности соответствии с последовательностей) номенклатурой

(индекс Джаккарда), %

1. Индекс Дэвиса-Ьол дина 39 67

2. ¡„-метод (динамикт и юисрашш) 39 68

3. Наилучшее соответствие с

номенклатурой при фиксированном 35 80 уровне отсечения

4. Критерий структурно-

функциональных мотивов 15-43 84

- (адаптируемый уровень отсечения)_______

С учетом полученных данных, дальнейшая работа заключалась в нахождении более приемлемого способа установления границ кластеров, чем L-метод. Была апробирована группа подходов, основывающихся на анализе статистических свойств дендрограммы кластерного анализа. В качестве показательного примера такого рода подхода в работе рассматривается индекс Дэвиса-Болдина (метод №1 в табл. 5). Индекс основан на сравнении статистических характеристик распределения расстояний между объектами, входящих в состав одного кластера, с характеристиками распределения расстояний до объектов вне кластера.

Применение индекса Дэвиса-Болдина хотя и не принесло положительных результатов, но еще более четко обозначило основную особенность кластеризационного профиля надсемейства. Минимум значений индекса, отвечающий оптимальной границе кластера, располагался на различных уровнях отсечения, в зависимости от конкретного семейства. Таким образом, было установлено, что граница отсечения индивидуальна для каждого семейства цитохромов Р450; следовательно, оптимальный критерий отсечения должен быть взаимосвязан со структурно-функциональными свойствами ферментов.

Алгоритмизировать выявленную взаимосвязь удается в рамках развиваемой в работе концепции структурно-функциональных мотивов. Заключение о правомочности выделения кластеров делается на основании наличия мотивов в

консенсусной последовательности множественного выравнивания. Мотивы выявляются путем применения критерия Шермана, на основании которого рассчитывается информационное содержание, как отношение значений критерия, полученных для консенсусной последовательности, и значений, полученных для строки, сгенерированной путем инвертирования консенсуса. (Под инвертированием следует понимать формальную замену вариабельных позиций консервативными и наоборот.)

Критерием качества кластеризации служит степень соответствия между составом номенклатурных групп (семейств и подсемейств цитохромов Р450) и составом кластеров, полученных в автоматическом режиме. Из табл. 5 видно, что применение критерия структурно-функциональных мотивов позволяет добиться наилучшего соответствия.

Для интерпретации данных, приведенных в табл. 5, следует указать, что методы нахождения уровня отсечения №1, №2 и №4 работают в режиме «без обучения», т.е. алгоритмы работают без привязки к существующей номенклатуре. Алгоритм №3 наоборот, ориентирован на существующую номенклатуру, однако, даже в этом случае его применение показывает худший результат (80%), чем предлагаемый нами метод №4 (84%). Принципиальная новизна метода №4 заключается в том, что анализ структурно-функциональных мотивов позволяет привлечь дополнительную информацию для уточнения границ кластеров; в результате линия отсечения варьирует в диапазоне от 15 до 43% идентичности (см. табл. 5).

В работе понятие структурно-функциональных мотивов вводится путем развития сложившихся представлений о способах оценки степени сложности последовательностей, кодирующих биологические макромолекулы. Рассматриваются современные подходы к оценке информационного содержания структур белков и ДНК; отмечается неприменимость стандартных подходов, основанных на расчетах в рамках шенноновского определения количества информации. Выдвигается гипотеза о наличии локальных элементов сходства (мотивов или «островов»), определяющих информационное содержание последовательности аминокислотных остатков. Предлагается способ выявления мотивов путем статистического анализа характера распределения консервативных остатков в составе консенсусной последовательности множественного выравнивания.

С точки зрения термодинамики, определяющей сборку пространственной структуры белка, концепция структурно-функциональных мотивов отвечает представлениям так называемой «островной» гипотезы [№з!нка\уа, 1993]. Согласно этой гипотезе разрешенные структуры белков, т.е. те первичные структуры, которые могут преодолеть термодинамический барьер фолдинга и принять определенную пространственную конформацию, являются относительно редким явлением, по сравнению со значительно большим числом возможных структур, не способных к фолдингу. Таким образом, в ходе молекулярной эволюции для обеспечения необходимых ферментативных функций белок должен консервативно сохранять некий остов — фолд-детерминирующую основу. Одновременно, специализация фермента в отношении новых функций приводит к возникновению мутаций, не затрагивающих фолд-детерминирующую основу, но обеспечивающую

специфичность взаимодействия с лигандом и избирательность каталитической активности.

Вышеизложенная общая концепция нашла свое подтверждение в рамках проделанной работы по изучению структурно-функциональных особенностей белков надсемейства цитохромов Р450. Выявленные в ходе инвентаризации надсемейства общие мотивы, по-видимому, и являются компонентами фолд-детерминирующей основы белков надсемейства. Мотивы общего обеспечивают такие базовые функции, как фиксация тема, закрепление в мембране эндоплазматического ретикулума (для микросомапьных форм цитохромов Р450), фиксация молекулярного кислорода в каталитическом центре, взаимодействие с редокс-партнерами (см. рис. 8а).

С другой стороны, частные мотивы являются продуктом специализации представителей различных семейств цитохромов Р450 в отношении уникальных функций. В ото утверждение доказывается: а) путем анализа мотивов семейства стероловых деметилаз; б) путем коррекции результатов кластерного анализа на основании критерия структурно-функциональных мотивов. В ходе изучения семейства стероловых деметилаз было показано, что частные мотивы расположены в элементах структуры белка, участвующих в узнавании субстрата [Лисица, 2004]. Распространение этого наблюдения на другие семейства цитохромов Р450 следует из повышения степени соответствия между составом номенклатурных групп и результатами кластерного анализа, достигнутого в результате применения критерия структурно-функциональных мотивов (см. табл. 5).

Анализ двух типов структурно-функциональных мотивов может быть предложен в качестве метода прогнозирования функциональной специфичности новых форм цитохромов Р450, выявляемых в геномах. Кроме функционального аннотирования, мотивы могуг быть использованы в качестве элементов для конструирования химерных форм цитохромов Р450 с заданными функциями. Обе сферы применения мотивов представляют интерес с точки зрения современных задач биотехнологии.

3.5 Заключение: взаимосвязь мевду структурой белка и его субстратной специфичностью как основная проблема биоинформационных исследований надсемейства цитохромов Р450

База знаний по цитохромам Р450 позволяет выявить центральную научную проблему, связанную с данным надсемейством белков. Очевидно, проблема является общим отражением ситуации в молекулярной биологии, которая сложилась в связи с экспоненциальным ростом количества расшифрованных геномов. Как отображено на рис. 10, рост количества генов, кодирующих цитохромы Р450, является экспоненциальным. Так, в 1991 г. сиквеиирование одного гена являлось трудоемким процессом, и каждый найденный ген, кодирующий новую форму цитохрома Р450, публиковался в виде отдельной статьи. Поиск и сиквенирование нового гена занимало количество времени, сравнимое с объемом исследования по выделению кодируемого геном белка и характеристики его специфических свойств. Как

следствие, количество функционально охарактеризованных цитохромов Р450 только в 2 раза уступало общему количеству известных генов.

Количество цитохромов Р450 3500 --------

3000

200G

2500

1500

1000

500

1991 г.

1996 г.

2003 г.

2007 г.

Рис. 10. Увеличение объемов информации о надсемействе цитохромов Р450:

О - количество расшифрованных первичных структур [Nelson et al., 1991; Nelson et al., 1996; Estabrook, 2003; Nelson, 2006];

□ - количество форм цитохромов P450, для которых известна субстратная специфичность по отношению как минимум к одному химическому соединению.

Повышение эффективности методических подходов к сиквенированию геномов привело к тому, что, начиная с 1996 г., нарастает разрыв между количеством известных генов и охарактеризованными белками. Как следствие в глобальных банках данных быстро накапливаются сведения о новых формах цитохромов Р450 в составе цельных геномов. Информация о способах клонирования, выделения кодирующей ДНК и препарата белка, не говоря уже о функциональных характеристиках фермента, отсутствует.

В области получения препарата белка и изучении его функциональных свойств за прошедшие 15 лет методический прогресс был не так ощутим, как в технологиях расшифровки геномов [Cham, 2005; Bennet et al., 2005]. Как отображено на рис. 10, накопление данных о функциональных свойствах белков надсемейства происходит медленно, и за прошедшие 15 лет количество изученных с точки зрения субстратной специфичности форм увеличилось менее чем в 5 раз, в то время, как количество обнаруженных генов цитохромов Р450 возросло более чем в 100 раз.

В действительности ситуация представляется даже более сложной, поскольку существует множество форм цитохромов Р450, каждая из которых способна окислять несколько или даже десятки субстратов [Werk-reichhart, 2000]. Так, например, в настоящее время для каждой из 334 форм цитохромов Р450 известны 1 и более субстратов, но лишь для каждого из 79 цитохромов Р450 известно более 5 субстратов.

Ряд исследователей [Korolev et al., 2003; Lewis et al., 2006; Borodina et al., 2004] ведут работы по вычислительному прогнозированию каталитически активной формы фермента по заданной структурной формуле химического соединения. Для этого используются различные варианты методов анализа взаимоотношений структура-активность (QSAR, см. рис. 11а). Однако, как следует из вышесказанного, область такого рода исследования довольно ограниченная - статистически достоверные данные могут быть получены всего для 79 белков, при их общем количестве более 3 тыс. Уровень предсказательной достоверности указанной группы методов невысок, и колеблется в диапазоне 60-70%, что определяется перекрестной субстратной специфичностью, присущей многим формам цитохрома Р450.

(а) (б)

Структура химического соединения ИСХОДНЫЕ ДАННЫЕ Первичная структура цитохрома Р450

методы (Q)sar г методы ???

Форма цитохрома Р450 Субстрат, реакция, продукт

Рис. П. Традиционные подходы к установлению взаимосвязи структура-функция (а) и необходимый путь дальнейшего развития биоинформационных методов в области надсемейства цитохромов Р450 (б).

Не отрицая важность прогнозирования профиля взаимодействия химического соединения с цитохромами Р450 с точки зрения задач исследования фармакокинетики прототипов новых лекарств, хотелось бы, опираясь на данные рис. 10, привлечь внимание к наиболее важной, прямо противоположной проблеме, схематически изображенной на рис. 116. В данном случае исследователь исходно располагает информацией только о первичной структуре цитохрома Р450, расшифрованной на основании анализа геномной информации. Вполне вероятно, что предсказанный белок является функционально активным, т.е. может быть использован для решения прикладных задач биотехнологии, создания биологически активных соединений, мониторинга окружающей среды и проч. Однако, на пути практического применения сведений о первичной структуре новой формы цитохрома Р450 стоит препятствие, заключающееся в большой трудоемкости экспериментальных методов исследования, направленных на выявление функции белка. Преодолеть этот барьер возможно только с использованием вычислительных методов прогнозирования, которые позволили бы за счет анализа особенностей последовательности аминокислотных остатков сделать

выводы о субстратной специфичности, предсказать наиболее вероятные каталитические реакции и их продукты.

В настоящее время однозначных подходов к решению указанной проблемы не существует. Использование базы знаний для проведения инвентаризации, индексации, поиска общих и частных мотивов позволило выявить ограничения методов, основанных на алгоритме выравнивания. Дальнейшее развитие исследований в направлении предсказания функций новых форм цитохромов Р450, по-видимому, должно быть связано с дополнительными аналитическими алгоритмами, такими как, молекулярное моделирование, анализ распределения аминокислотных остатков [Otaki et al., 2006], изучение закономерностей скрытой периодичности [Turutina et al., 2006], выявление минимальных модульных повторов [Barney, 2006] и проч.

4. ВЫВОДЫ

1. Разработана информационная система - база знаний, обеспечивающая интегрированную платформу для хранения и анализа информации о структурно-функциональных особенностях белков надсемейства цитохромов Р450.

2. В состав базы знаний включены методы обработки информационного массива и разработана технология применения этих методов в научно-исследовательской работе.

3. С использованием базы знаний получены следующие научные результаты:

а) разработаны подходы к кластерному анализу (инвентаризации) надсемейства цитохромов Р450;

б) метод индексации предложен в качестве объективного способа упорядочивания белков надсемейства по степени их родства с реконструируемыми консенсусами-предшественниками;

в) установлено, что последовательностям белков надсемейства цитохромов Р450 присущи мотивы двух типов: мотивы общего характера, обеспечивающие единство фолда и механизмов катализа, и мотивы частного характера, обеспечивающие специфичность функциональной активности.

4. Предложен новый подход к классификации белков надсемейства цитохромов Р450, основанный на анализе мотивов общего и частного характера в первичных структурах этих белков.

5. Показано, что общая тенденция накопления данных в отношении надсемейства характеризуется прогрессирующим отставанием объема сведений о функциональной активности от объема информации о расшифрованных генах, кодирующих цитохромы Р450. Задача прогнозирования функциональной активности новых форм определена как основная проблема в дальнейшем развитии биоинформационных исследований в области надсемейства цитохромов Р450.

5. СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Archakov A.I., Ivanov A.S., Lisitsa A.V., Rukavishnikov I.G. Leucine clusters (L) 3+N as sites of interaction of microsomal cytochromes P450 with the membrane phospholipids. //In: Proceedings of 7-th International Conference "Biochemistry & Biophysics of cytochrome P450: Structure & Function, Biotehnology & Ecological Aspekts. (Archakov A.I., Bachmanova G.I., eds).-INCO-TNC Joint Stock Company.-1992.-P.716-718.

2. Archakov A.I., Bachmanova G.I., Sandler M.K., Tutochkin I.Y., Lisitsa A.V. Cytochrome P450 database and its scientific application. //In: Proceedings of 7-th International Conference "Biochemistry & Biophysics of Cytochrome P450: Structure & Function, Biotehnology & Ecological Aspekts. (Archakov A.I., Bachmanova G.I., eds).-INCO-TNC Joint Stock Company.-1992.-P.-673-679.

3. Archakov A.I., Degtyarenko K.N., Lisitsa A.V. Common motifs in microsomal cytochrome P450 N-terminal membrane fragment of cytochrome P450 LM2. //J. Basic & Clinical Physiology & Pharmacology.-1992.-P.97-98.

4. Lisitsa A.V., Bachmanova G.I., Archakov A.I. Cytochrome P450 database for prediction of drugs fate in living systems. //In: Abstr. 9-th International Conference "Cytochrome P450: Biochemistry, Biophysics and Molecular Biology".-Zarich.-1995.-P.173.

5. Archakov A.I., Bachmanova G.I., Lisitsa A.V., Sandler M.K. Prediction of drugs fate by using cytochrome P450 database. //In: Abstr. of 3-th IUBMB Company Molecular Recognition.-Singapore.-1995.-P. 103.

6. Archakov A.I., Lyashenko A.A., Lisitsa A.V., Koymans L. Cytochrome P450 database and its usage for analysis of structural functional domains and substrate specificity. //Exp. Toxic. Pathol.-1996.-V.48(5).-P.329-330.

7. Archakov A.I., Lisitsa A.V., ZgodaV.G., Koymans L. The determination of the cytochrome P450 superfamily frontiers. //In: Abstr. 12-th International symposium on microsomes and drug oxidations.-Montpellier France Le Corum.-1998.-P.419.

8. Gusev S., Archakov A., Lisitsa A., Zgoda V., Koymans L. N-Tuple alignment of biological texts. //In: Abstr. 12-th International symposium on microsomes and drug oxidations.-Montpellier France Le Corum.-1998.-P.420.

9. Lisitsa A.V., Archakov A.I., Koymans L. Automatic procedure for the proteins clusterization applied to the cytochrome P450 superfamily. IIIn: Abstr. 12-th International symposium on microsomes and drug oxidations.-Montpellier France Le Comm.-1998.-P.421.

10. Archakov A.I., Lisitsa A.V., Zgoda V.G., Ivanov A.S., Koymans L. Clusterization of P450 superfamily using the objective pair alignment method and the UPGMA program. //J. Mol. Model.-1998.-V.4.-P.234-238.

11. Lisitsa A., Gusev S. Cytochrome P450 database and its scientific application. //In: Abstr. International workshop "From Sequence to function: Experimental and Bioinformatic Studies of Cytochrome P450 Superfamily".-Moscow.-2000.-P.21.

12. Gusev S., Lisitsa A. Creation of structural functional map for P450 proteins. //In: Abstr. International workshop "From Sequence to function: Experimental and Bioinformatic Studies of Cytochrome P450 Superfamily".-Moscow.-2000.-P.25.

13.Ivanov Л., Dubanov A., Skvortsov V., Gusev S., Lisitsa A., Archakov A. Genome analysis and computer modelling of cytochromes P450 from Mycobacterium tuberculosis. //In: Abstr. International workshop "From Sequence to function: Experimental and Bioinformatic Studies of Cytochrome P450 Superfamily".-Moscow.-2000.-P.26.

14. Gusev S.A., Lisitsa A.V., Karuzina I.I., Archakov A.I. Cytochrome P450 Database. //In: Abstr. 13 International Symposium on Microsomes and Drug Oxidation.-Stresa-Italy.-Satellite Symposium of the VII World Conference on Clinical Pharmacology and Therapeutics,-Florence.-2000.-P. 179.

15. Lisitsa A.V., Gusev S.A., Archakov A.I. Structural functional motifs in 14a-demethylase of Mycobacterium tuberculosis. //In: Abstr. 13 International Symposium on Microsomes and Drug Oxidation.-Stresa-Italy.-Sateilite Symposium of the VII World Conference on Clinical Pharmacology and Therapeutics.-Florence.-2000.-P.180.

16. Лисица A.B., Гусев C.A. Биоипформатика первичной структуры белков. //Вопросы мед. ХИМИИ.-2001 .-Т.47.-С.659-663.

17. Archakov A., Lisitsa A., Gusev S., Koymans L., Janssen P. Inventory of the Cytochrome P450 superfamily. //J.Mol.Model.-2001.-V.7.-P.140-142.

18. Lisitsa A.V., Gusev S.A., Karuzina 1.1., Archakov A.I., Koymans L. Cytochrome P450 database. //SAR QSAR Environ Res.-2001 .-V. 12(4).-P.359-66.

19. Lisitsa A. V., Gusev S.A., Archakov A.I. Application of protein indexing to Cytochrome P450 superfamily. //In: Abstr. 4-th International Conference on Molecular Structural Biology.-Vienna.-2001 .-P.81.

20. Lisitsa A.V., Gusev S.A., Archakov A.I. Index of cytochrome P450 superfamily. //In: Abstr. 12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and Molecular Biology.-France.-2001.-P.102.

21. Shumyantseva V.V., Bulko T.V., Petushkova N.A., Lisitsa A.V., Archakov A.I. Specific binding of riboflavin to the cytochrome P450 2B4: fluorometric and spectroscopic studies. //In: Abstr. 12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and Molecular Biology.-France.-2001.-P.116.

22. Gusev S.A., Lisitsa A.V., Archakov A.I. Structural-functional motifs of cytochromes P450. //In: Abstr. 12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and Molecular Biology.-France.-2001.-P.l 19.

23. Archakov A.I., Lisitsa A.V., Gusev S.A., Govorun V.M. Proteomic indexing of Cytochrome P450 Superfamily. //In: Abstr. International Meeting on Proteome Analysis.-Munchen.-2001 .-P. 133.

24. Lisitsa A.V. Cytochrome P450 Database: From data to knowledge. //In: Abstr. International Conference Genomics and Bioinformatics for Medicine.-St.Peterburg-Moscow.-2002.-P.52.

25.Borodina Ju.V., Lisitsa A.V., Poroikov V.V., Filimonov D.A, Sobolev B.N., Archakov A.I. If there exists correspondence between similarity of substrates and protein sequences in cytochrome P450 superfamily? //In: Abstr. International Conference Genomics and Bioinformatics for Medicine.-St.Peterburg-Moscow.-2002.-P.76.

26. Archakov A.I., Karuzina I.I., Petushkova N.A., Lisitsa A.V., Zgoda V.G. Production of carbon monoxide by cytochrome P450 during iron-dependent lipid peroxidation. //Toxicology in vitro.-2002.-V. 16.-P. 1 -10.

27. Lisitsa A., Borodina Ju., Filimonov D., Archakov A. Cytochrome P450 Database: from data to knowledge. /Лn: Abstr. 14th International Symposiun in Microsomes and Drug Oxidation.-Sapporo Japan.-2002.-P.84.

28. Лисица A.B., Мирошниченко Ю.В., Иванов A.C., Арчаков А.И. Общее и частное в структурной организации белков надсемейства цитохромов Р450. //Аллергия, астма и клиническая иммунология.-2003.-№8.-С.14-19.

29. Пономаренко Е.А., Лисица А.В., Карузина И.И., Мирошниченко Ю.В. Автоматизированное аннотирование функциональных свойств белков надсемейства цитохромов Р450. //Аллергия, астма и клиническая иммунология.-2003.-№8.-С.95-99.

30. Арчаков А.И., Канаева И.П., Петушкова Н.А., Згода В.Г., Лисица А.В., Карузина И.И. Создание протеомных карт белков микросом клеток печени и лимфоцитов крови мышей с целью разработки новых диагностических тестов. //Аллергия, астма и клиническая иммунология.-2003.-№9.-С.179-181.

31. Иванов А.С., Скворцов B.C., Сеченых А.А., Дубанов А.В., Лисица А.В. Компьютерное моделирование трехмерной структуры цитохрома Р450. //Биомедицинская химия.-2003 ,-Т.49(3).-С.221-37.

32.Borodina Y.V., Lisitsa A.V., Poroikov V.V., Filimonov D.A., Sobolev B.N., Archakov A.I. If there Exists Correspondence between Similarity of Substrates and Protein Sequences in Cytochromes P450 Superfamily? //Nova Acta Heopoldina.-2003.-V.329.-P.47-55.

33. Archakov A.I., Lisitsa A.V., Gusev S.A., Miroshnichenko Yu.V. Bioinformalic Insight into the Structural Unity and Diversity of Cytochromes P450. //In: Proceedings 13-th International Conference on Cytochromes P450.-Prague.-2003.-P.7-13.

34.Ivanov A.S., Skvortsov V.S., Lisitsa A.V., Archakov A.I. General trends in 3D modelling of cytochromes P450. /fin: Proceedings 13-th International Conference on Cytochromes P450.-Prague.-2003.-P.47-54.

35. Lisitsa A.V, Ponomarenko E.A., Karuzina I.I., Ivanov A.S., Archakov A.I. Balance Sheet for Cytochrome P450 Knowledgebase. //In: Proceedings 13-th International Conference on Cytochromes P450.-Prague.-2003.-P.67-73.

36. Lisitsa A.V., Gusev S.A., Archakov A.I. Motif-based criterion corrects the clustering of protein sequences. //In: Abstr. 5th International Conference on Molecular Structural Biology.-Vienna.-2003.-P.79.

37. Lisitsa A.V., Archakov A.I., Lewi P., Janssen P. Bioinformatic insight into the unity and diversity of cytochromes P450. //Methods and Findings in Experimental and Clinical Pharmacology.-2003.-V.25(9).-P.733-745.

38. Иванов A.C., Скворцов B.C., Сеченых A.A., Дубанов A.B., Лисица А.В. Проблемы и перспективы компьютерного моделирования трехмерной структуры цитохромов Р450. //Сборник материалов Сессии ИВТН-2003.-Москва.-2003.-С.6-7.

39. Иванов Н.А. , Лисица А.В., Пономаренко Е.А., Арчаков А.И. Тематический анализ резюме научных публикаций в области цитохромов Р450. //Сборник материалов Сессии ИВТН-2003.-Москва.-2003.-С.28-29.

40. Lisitsa A.V., Archakov A.I. Bioinformatics of protein primary structure. //In: Annals of the European Academy of Sciences. Khalatnikov I.M. (Ed). EAS Publishing House: Brussels.-2003.-P. 48-74.

41. Лисица А.В., Мирошниченко Ю.В., Пономаренко Е.А. База знаний по цитохромам Р450. //Сборник научных трудов X Российского национального конгресса «Человек и лекарство».-2003.-С.730.

42. Канаева И.П., Петушкова Н.А., Лохов П.Г., Згода В.Г., Карузина И.И., Лисица А.В., Арчаков А.А. Изучение микросом печени мышей с помощью методов протеомного анализа. //Биомедицинская химия.-2004.- Т.50(4).-€.367-75.

43. Lisitsa A.V. Bioinformatic means for the integration of heterogeneous data and methods. //In: Abstr. 2nd International conference "Genomics, Proteomics and Bioinformatics for Medicine".-Moscow-Ples-Moscow.-2004.-P.59.

44. Lisitsa A.V., Archakov A.I. Cytochrome P450 Knowledgebase (CPK). //In: Abstr. 7th International symposium on Cytochrome P450. Biodiversity and biotechnology.-Japan.-2004.-P.43.

45. Лисица A.B., Гусев C.A., Мирошниченко Ю.В., Кузнецова Г.П., Лазарев В.Н., Скворцов B.C., Карузина И.И., Говорун В.М., Арчаков А.И. Структурно-функциональные мотивы стероловых 14-альфа-деметилаз (CYP51). //Биомедицинская химия.-2004.-Т.50(6).-С.555-65.

46. Арчаков А.И., Гусев С.А., Лисица А.В. База данных по цитохромам Р450. //Свидетельство об официальной регистрации базы данных №2004620199.-2004.

47. Kanaeva I.P., Petushkova N.A., Lisitsa A.V., Lokhov P.G., Zgoda V.G., Karuzina I.I., Archakov A.I. Proteomic and biochemical analysis of the mouse liver microsomes. //Toxicol In Vitro.-2005.-V.19(6).-P.805-12.

48. Арчаков А.И., Лисица А.В. Биоинформатика и биоинформационные технологии. //Труды XII Всероссийской научно-методической конференции «Телематика'2005».-Санкт-Петербург.-2005.-Т. 1 .-С.55-56.

49. Lisitsa A.V., Ponomarenko Е.А., Gusev S.A., Kuznetsova G.P., Karuzina I.I., Lewi P., Archakov A.I. Cytochrome P450 knowledgebase: structure and functionality. //In: Proceedings 14th International conference on cytochromes P450: biophysics and bioinformatics.-Dallas, USA.-2005.-P.29-34.

50. Lisitsa A.V. Integrated management of dataflow within the proteomic projects. //In: Abstr. HUPO 4th annual world congress "From defining the proteome to understanding function".-Munich, Germany.-2005.-P.83.

51. Петушкова H.A., Канаева И.П., Шереметьева Г.Ф., Згода В.Г., Лохов П.Г., Лисица А.В., Карузина И.И., Арчаков А.И. Использование протеомных технологий для выявления и идентификации цитохромов Р450 микросом клеток печени человека. Аллергия, астма и клиническая иммунология.-2005.-№5.-С.11-17.

52. Пономаренко Е.А., Лисица А.В., Карузина И.И., Гусев С.А. База знаний по цитохромам Р450. //Сборник материалов Сессии ИВТН-2006.-Москва.-2006.-С.32.

53.Шумянцева В.В., Булко Т.В., Рудаков Ю.О., Саменкова Н.Ф., Лисица А.В., Карузина И.И., Арчаков А.И. Наноэлектрохимия цитохромов Р450: прямой перенос электронов и элекгрокатализ. //Биомедицинская химия.-2006.-Т.52(5).-С.458-68.

54. Ivanov A.S., Gnedenko O.V., Molnar A.A., Mezentsev Yu.V., Lisitsa A.V., Archakov A.I. Protein-protein interactions as new targets for drug design: interactive links between virtual and experimental approaches. //In: Abstr. 5rd International conference on bioinformatics of genome regulation and structure.- Novosibirsk.-2006.-V.l.-P.277-281.

55. Petushkova N.A., Kanaeva I.P., Lisitsa A.V., Sheremetyeva G.F., Zgoda V.G., Samenkova N.F., Karuzina I.I., Archakov A.I. Characterization of human liver cytochromes P450 by combining the biochemical and proteomic approaches. //Toxicol In Vitro.-2006.-V.20(6).-P.966-74.

56. Zgoda V., Tikhonova O., Lisitsa A., Archakov A. Proteomic profiles of induced hepatotoxicity at the subcellular level. /Яn: Abstr. 3rd International conference "Genomics, proteomics, bioinformatics and nanotechnologies for medicine".-Novosibirsk.-2006.-P.65.

57. Archakov A., Lisitsa A. Platform from genomes to drugs - escorting the data-driven drug design. //In: Abstr. 3rd International conference "Genomics, proteomics, bioinformatics and nanotechnologies for medicine".-Novosibirsk.-2006.-P.72.

58.1vanov A., Molnar A., Lisitsa A., Archakov A. Integration of computer and experimental approaches for discovery of inhibitors of protein interactions. //In: Abstr. 3rd International conference "Genomics, proteomics, bioinformatics and nanotechnologies for medicine".-Novosibirsk.-2006.-P.77.

59. Zgoda V., Tikhonova O., Lisitsa A., Archakov A. Proteomic profiles of induced hepatotoxicity at the subcellular level. //In: Abstr. HUPO 5rd annual world congress.-Long Beach, California.-2006.-P.145.

60. Lisitsa A., Nikitin I., Archakov A., Podoplelov A., Thiele H. Recognizing the proteomic patterns of induced toxicity with 1D-ZOOMER approach. //In: Abstr. HUPO 5rd annual world congress.-Long Beach, California.-2006.-P.146.

61.Арчаков А.И., Лисица A.B., Пятницкий M.A., Руденко В.А., Тихонова О.В. Протей. //Свидетельство об официальной регистрации программы для ЭВМ №2006611941.-2006.

62. Zgoda V., Tikhonova О., Viglinskaya A., Serebriakova М., Lisitsa A., Archakov А. Proteomic profiles of induced hepatotoxicity at the subcellular level. //Proteomics.-2006.-V.6( 16).-P.4662-4670.

63. Archakov A.I., Ivanov Y.D., Lisitsa A.V., Zgoda V.G. AFM fishing nanotechnology is the way to reverse the Avogadro number in proteomics. //Proteomics.-2007.-V.7(l).-P.4-9.

Содержание диссертации, доктора биологических наук, Лисица, Андрей Валерьевич

1. ВВЕДЕНИЕ.

2. ОБЗОР ЛИТЕРАТУРЫ.

2.1. Информационные системы в молекулярной биологии.

2.1.1. Глобальные информационные ресурсы.

2.1.3. Медиаторные системы.

2.1.4. Автоматизация поддержки информационных ресурсов.

2.2. Информационный анализ первичной структуры белка.

2.2.1. Выравнивание первичной структуры белков.

2.2.2. Статистическая оценка результатов выравнивания.

2.2.3. Информационные характеристики белковых структур.

23. Вычислительные методы классификации белков.

2.3.1. Классификация белков с применением алгоритмов выравнивания.

2.3.2. Методы определения сходства белков без выравнивания.

2.3.3. Пакет программ PHYLIP.

2.4. Биоинформационные исследования надсемейства Р

2.4.1. Номенклатура надсемейства цитохромов Р450.

2.4.2. Аннотирование новых генов цитохромов Р450.

2.4.3. Основные структурные элементы цитохромов Р450.

2.4.4. Структурно-функциональный подход к классификации цитохромов Р450.

2.4.5. Цитохромы Р450 в компьютерном конструировании лекарств.

2.4.6. Обзор информационных ресурсов по тематике цитохромов Р450.

3. ИСХОДНЫЕ ДАННЫЕ И МЕТОДЫ ИХ ОБРАБОТКИ.

3.1. Исходные данные.

3.2. Локальное выравнивание.

3.3. Парное глобальное выравнивание.

3.4. Множественное выравнивание

3.5. Метод выявления структурно-функциональных мотивов

3.6. Кластерный анализ и определение оптимального уровня отсечения.

3.7. Другие методы

4. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

4.1. Описание базы знаний по цитохромам P4S

4.1.1. Общие принципы построения информационной системы.

4.1.2. Главное меню программы.

4.1.3. Обращения к категориям данных.

4.1.4. Специальные возможности поиска данных.

4.1.5. Механизм формирования выборок.

4.1.6. Функции подготовки отчетов и экспорта данных.

4.2. Применение базы знаний.

4.2.1. Инвентаризация и индексация надсемейства цитохромов Р450.

4.2.2. Определение кластеров в составе надсемейства.

4.2.3. Общее и частное в структуре белков надсемейства цитохромов Р450.

4.2.4. Подходы к конструированию новых форм цитохромов Р450.

4.2.5. Анализ субстратной специфичности цитохромов Р450.

4.3. Способы верификации результатов виртуального эксперимента.

4.3.1. Определение оптимальных параметров выравнивания.

4.3.2. Определение оптимальной структуры протеомного индекса.

4.3.3. Оценка достоверности критериев выявления структурно-функциональных мотивов.

4.4. Технологии внесения новых данных в базу знаний

4.4.1. Обновление информации по первичным структурам цитохромов Р450.

4.4.2. Ввод данных о функциональных свойствах цитохромов Р450.

5. ВЫВОДЫ.

6. СПИСОК НАУЧНЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ.

Введение Диссертация по биологии, на тему "База знаний по цитохромам Р450: разработка и применение"

1.1 Актуальность проблемы, цель и задачи работы

Концепция замещения ранее созданных баз данных - статических информационных ресурсов - динамически развивающимися базами знаний обусловлена необходимостью оперативной разноплановой обработки накапливающегося экспериментального материала. Отличительным признаком базы знаний является гибкая структура данных, способная эффективно адаптироваться к быстро меняющимся условиям поставленной задачи. Особенно актуальной способность к адаптации становится в приложении к задачам биологии, характеризующимся противоречием между неполнотой экспериментальных данных и системной целостностью объекта исследования -живого организма.

Изучение молекулярных процессов является наиболее глубинным способом анализа живых систем. Проведение широкомасштабных исследований на молекулярном уровне стало возможным благодаря появлению высокоэффективных экспериментальных технологий. Достижения геномных и постгеномных технологий вывели на первый план задачи, связанные с хранением и обработкой получаемой информации. Качественный скачок в развитии молекулярной биологии, обусловленный внедрением новых технологий и накоплением множества разрозненных, но взаимодополняющих экспериментальных данных, ознаменовался появлением новой научной дисциплины - системной биологии [Вигга§е е1 а1., 2006]. В рамках системной биологии концепцию базы знаний применяют для выявления скрытых закономерностей в накопленных данных.

Системные подходы в молекулярной биологии находят свое отражение в развитии баз знаний на основе исторически сложившихся глобальных информационных ресурсов: на смену базе данных по первичной структуре белковых последовательностей 8\У188РкЛ [http://au.expasv.org/sprot/] приходит ресурс нового поколения - база знаний итРпй [http://www.expasy.uniprot.org/]: база данных геномных последовательностей ОепВапк [http://www.ncbi.nlm.nih.gov/Genbank/index.html] в настоящее время также оснащена целым арсеналом вспомогательных алгоритмических средств работы с данными. Вышеперечисленные системы являются интегральными, что подразумевает хранение информации обо всем разнообразии генов и белков.

Объектная ориентированность базы знаний по цитохромам Р450 определяет ее уникальность и очерчивает область ее потенциального применения в научных исследованиях. База знаний позволяет параллельно накапливать информацию о структурном и функциональном разнообразии цитохромов Р450. Структурный и функциональный потоки аккумулируют данные независимо друг от друга, формируя объективные предпосылки для выдвижения гипотез о наличии структурно-функциональных взаимосвязей. Развитие гипотез происходит в контексте определенной статистической или алгоритмической модели, которая строится исходя из одного типа данных, а проверяется на другом. Так, рассматриваемая в работе «островная гипотеза» [№зЫка\уа, 1993] строения белковых молекул, в рамках базы знаний формализуется в виде статистического метода выявления структурных мотивов двух типов путем сравнительного анализа последовательностей аминокислотных остатков [Ыв^а й а1., 2003]. Найденные структурные мотивы затем используются для корректировки существующей классификации надсемейства цитохромов Р450. Вносимые в номенклатуру надсемейства корректировки, т.е. отличия традиционной классификации от варианта, построенного на основе «островной гипотезы», составляют сущность нового знания о структурно-функциональных взаимосвязях в надсемействе цитохромов Р450.

Высокая значимость представляемой работы определяется важностью биологической роли ферментов надсемейства цитохромов Р450. Реализуемая цитохромами Р450 реакция монооксигеназного катализа является необходимым звеном в обеспечении жизнедеятельности организмов, начиная с простейших и заканчивая многоклеточными эукариотами. Многогранность каталитических особенностей, структурное разнообразие известных генетических форм, широкий арсенал методов экспериментальных исследований делают цитохромы

Р450 актуальным объектом для апробации технологии создания объектно-ориентированной базы знаний.

3. Интегрировать в базу знаний алгоритмы биоинформатики, предназначенные для сравнительного анализа последовательностей аминокислотных остатков; разработать интерактивные средства работы с этими алгоритмами.

1.2. Научная новизна и практическая значимость

В представленной работе впервые показана возможность создания базы знаний и её последующего применения для решения научно-исследовательских задач, связанных с анализом надсемейства цитохромов Р450. База знаний доступна в сети Интернет по адресу [http://cpd.ibmh.msk.su].

Разработан способ формализации эмпирических знаний, накопленных в результате экспериментов по изучению структуры и функции цитохромов Р450, и предоставлен интерактивный доступ к широкому спектру биоинформационных алгоритмов, таких, как алгоритмы выравнивания последовательностей, кластерного анализа, методы построения консенсусных последовательностей и выявления структурно-функциональных мотивов.

Предложена новая система объективной классификации надсемейства цитохромов Р450, основанная на принципах автоматического анализа структурного, функционального и эволюционного сходства белков. Для объективной оценки разработан инструментарий оригинальных методов, включающий:

- метод иерархического выравнивания консенсусных последовательностей;

- метод структурно-функционального картирования белков, предназначенный для обозначения на аминокислотной последовательности элементов вторичной структуры белка, субстрат-связывающих участков, точечных мутаций, структурно-функциональных мотивов и др.

- метод инвентаризации надсемейства, позволяющий распределить белки по кластерам и реконструировать последовательность-предшественник для каждого кластера;

- метод индексирования белков, позволяющий отразить процесс эволюционного развития белкового надсемейства;

- метод выявления структурно-функциональных мотивов, как статистически-значимых локальных участков консервативности в составе консенсусной последовательности

Разработанный комплекс подходов применяется для прогнозирования функциональной специфичности новых форм цитохромов Р450; информация, содержащаяся в базе знаний, востребована при моделировании пространственных структур цитохромов Р450 и при анализе взаимосвязей между структурой и функцией белка. Выявленные с использованием базы знаний структурно-функциональные мотивы могут быть использованы при планировании генно-инженерных экспериментов по созданию искусственных форм цитохромов Р450 с новыми функциями. Также важна практическая роль разработанной базы знаний в качестве интерактивного справочного и обучающего пособия.

Впервые для отдельного надсемейства белков представлены результаты масштабного технологического программирования, ориентированного на организацию взаимосвязанных сценариев работы пользователя с данными. Разработанные сценарии включают в себя до восьми этапов, на каждом из которых пользователь получает дополнительную информацию об объекте исследования. Эта информация потенциально является основой для построения научных гипотез и дальнейшего рационального планирования научно-исследовательской работы. Апробированные технологические приемы могут быть перенесены на другие группы белков (помимо цитохромов Р450) и представляют практическую значимость с точки зрения развития современных подходов к обработке молекулярно-биологических данных.

1.3. Структура изложения материала

Работа содержит главы «Обзор литературы», «Исходные данные и методы их обработки», «Результаты и обсуждение». В обзоре литературы рассматриваются характеристики современных информационных систем и способы обработки первичных структур белков. Отмечаются основные методические наработки, которые в том или ином виде нашли отражение в базе знаний по цитохромам Р450. В главе «Исходные данные и методы их обработки» читатель знакомится со спецификой представленной в базе знаний информации и с описанием интегрированных в информационную систему алгоритмических разработок.

Глава «Результаты и обсуждение» содержит три принципиально важных подраздела. Первый из них посвящен описанию функций базы знаний с точки зрения пользователя ресурса. В следующий подраздел «Применение базы знаний» включены результаты исследовательских работ, направленных, главным образом, на автоматизированный анализ взаимосвязей между структурой и функциями в надсемействе цитохромов Р450.

Наконец в разделе «Способы верификации результатов виртуального эксперимента» рассматриваются принципы проверки достоверности результатов биоинформационных исследований.

2. ОБЗОР ЛИТЕРАТУРЫ

Заключение Диссертация по теме "Биоинформатика", Лисица, Андрей Валерьевич

5. ВЫВОДЫ

2. В составе базы знаний реализованы оригинальные методы обработки информационного массива, в том числе:

-методы выявления релевантных информационных объектов;

-методы оценки достоверности алгоритмов, основанных на сравнении первичных структур белков;

-метод автоматической классификации надсемейства белков;

Разработана и апробирована технология применения этих методов при осуществлении различных проектов НИР.

3. С использованием базы знаний получены следующие результаты: -разработаны подходы к инвентаризации (классификации) надсемейства цитохромов Р450;

-метод индексации предложен в качестве объективного способа упорядочивания белков надсемейства по степени их родства с реконструируемыми консенсусами-предшественниками;

-установлено, что последовательностям белков надсемейства цитохромов Р450 присущи мотивы двух типов: мотивы общего характера, обеспечивающие единство фолда и механизмов катализа, и мотивы частного характера, обеспечивающие специфичность функциональной активности.

6. СПИСОК НАУЧНЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

8. Gusev S., Archakov A., Lisitsa A., Zgoda V., Koymans L. N-Tuple alignment of biological texts. IIIn: Abstr. 12-th International symposium on microsomes and drug oxidations.-Montpellier France Le Corum.-1998.-P.420.

9. Lisitsa A.V., Archakov A.I., Koymans L. Automatic procedure for the proteins clusterization applied to the cytochrome P450 superfamily. //In: Abstr. 12-th International symposium on microsomes and drug oxidations.-Montpellier France Le Corum.-1998.-P.421.

10. Archakov A.I., Lisitsa A. V., ZgodaV.G., Ivanov A.S., Koymans L. Clusterization of P450 superfamily using the objective pair alignment method and the UPGMA program. //J. Mol. Model.-1998.-V.4.-P.234-238.

13. Ivanov A., Dubanov A., Skvortsov V., Gusev S., Lisitsa A., Archakov A. Genome analysis and computer modelling of cytochromes P450 from Mycobacterium tuberculosis. //In: Abstr. International workshop "From Sequence to function: Experimental and Bioinformatic Studies of Cytochrome P450 Superfamily".-Moscow.-2000.-P.26.

15. Lisitsa A.V., Gusev S.A., Archakov A.I. Structural functional motifs in 14a-demethylase of Mycobacterium tuberculosis. //In: Abstr. 13 International Symposium on Microsomes and Drug Oxidation.-Stresa-Italy.-Satellite Symposium of the VII World Conference on Clinical Pharmacology and Therapeutics.-Florence.-2000.-P. 180.

16. Лисица A.B., Гусев С.А. Биоинформатика первичной структуры белков. //Вопросы мед. химии.-2001 .-Т.47.-С.659-663.

17. Archakov A., Lisitsa A., Gusev S., Koymans L., Janssen P. Inventory of the Cytochrome P450 superfamily. //J.Mol.Model.-2001.-V.7.-P.140-142.

18. Lisitsa A.V., Gusev S.A., Karuzina I.I., Archakov A.I., Koymans L. Cytochrome P450 database. //SAR QSAR Environ Res.-2001.-V.12(4).-P.359-66.

19. Lisitsa A.V., Gusev S.A., Archakov A.I. Application of protein indexing to Cytochrome P450 superfamily. //In: Abstr. 4-th International Conference on Molecular Structural Biology.-Vienna.-2001.-P.81.

20. Lisitsa A.V., Gusev S.A., Archakov A.I. Index of cytochrome P450 superfamily. /Дп: Abstr. 12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and Molecular Biology.-France.-2001.-P. 102.

21.Shumyantseva V.V., Bulko T.V., Petushkova N.A., Lisitsa A.V., Archakov A.I. Specific binding of riboflavin to the cytochrome P450 2B4: fluorometric and spectroscopic studies. /Яn: Abstr. 12-th International Conference on Cytochrome P450. Biochemistry, Biophysics and Molecular Biology.-France.-2001.-P. 116.

23. Archakov A.I., Lisitsa A.V., Gusev S.A., Govorun V.M. Proteomic indexing of Cytochrome P450 Superfamily. //In: Abstr. International Meeting on Proteome Analysis.-Munchen.-2001 .-P. 133.

24. Lisitsa A.V. Cytochrome P450 Database: From data to knowledge. //In: Abstr. International Conference Genomics and Bioinformatics for Medicine.-St.Peterburg-Moscow.-2002.-P.52.

Conference Genomics and Bioinformatics for Medicine.-StPeterburg-Moscow.

2002.-P.76.

26.Archakov A.I., Karuzina I.I., Petushkova N.A., Lisitsa A.V., Zgoda V.G. Production of carbon monoxide by cytochrome P450 during iron-dependent lipid peroxidation. //Toxicology in vitro.-2002.-V.16.-P.l-10.

27. Lisitsa A., Borodina Ju., Filimonov D., Archakov A. Cytochrome P450 Database: from data to knowledge. //In: Abstr. 14th International Symposiun in Microsomes and Drug Oxidation.-Sapporo Japan.-2002.-P.84.

30.Арчаков А.И., Канаева И.П., Петушкова Н.А., Згода В.Г., Лисица А.В., Карузина И.И. Создание протеомных карт белков микросом клеток печени и лимфоцитов крови мышей с целью разработки новых диагностических тестов. //Аллергия, астма и клиническая иммунология.-2003.-№9.-С. 179-181.

31. Иванов А.С., Скворцов B.C., Сеченых А.А., Дубанов А.В., Лисица А.В. Компьютерное моделирование трехмерной структуры цитохрома Р450. //Биомедицинская химия.-2003.-Т.49(3).-С.221-37.

32. Borodina Y.V., Lisitsa A.V., Poroikov V.V., Filimonov D.A., Sobolev B.N., Archakov A.I. If there Exists Correspondence between Similarity of Substrates and Protein Sequences in Cytochromes P450 Superfamily? //Nova Acta Heopoldina.-2003 .-V.329.-P.47-55.

33. Archakov A.I., Lisitsa A.V., Gusev S.A., Miroshnichenko Yu.V. Bioinformatic Insight into the Structural Unity and Diversity of Cytochromes P450. //In: Proceedings 13-th International Conference on Cytochromes P450.-Prague.

2003.-P.7-13.

34.Ivanov A.S., Skvortsov V.S., Lisitsa A.V., Archakov A.I. General trends in 3D modelling of cytochromes P450. /Лп: Proceedings 13-th International Conference on Cytochromes P450.-Prague.-2003.-P.47-54.

35. Lisitsa A.V, Ponomarenko E.A., Karuzina I.I., Ivanov A.S., Archakov A.I. Balance Sheet for Cytochrome P450 Knowledgebase. /Лп: Proceedings 13-th International Conference on Cytochromes P450.-Prague.-2003.-P.67-73.

37. Lisitsa A.V., Archakov A.I., Lewi P., Janssen P. Bioinformatic insight into the unity and diversity of cytochromes P450. //Methods aid Findings in Experimental and Clinical Pharmacology.-2003.-V.25(9).-P.733-745.

38. Иванов A.C., Скворцов B.C., Сеченых А.А., Дубанов A.B., Лисица A.B. Проблемы и перспективы компьютерного моделирования трехмерной структуры цитохромов Р450. //Сборник материалов Сессии ИВТН-2003.-Москва. -2003 .-С .6-7.

39. Иванов Н.А., Лисица А.В., Пономаренко Е.А., Арчаков А.И. Тематический анализ резюме научных публикаций в области цитохромов Р450. //Сборник материалов Сессии ИВТН-2003.-Москва.-2003.-С.28-29.

40. Lisitsa A.V., Archakov A.I. Bioinformatics of protein primary structure. //In: Annals of the European Academy of Sciences. Khalatnikov I.M. (Ed). EAS Publishing House: Brussels.-2003.-P. 48-74.

41. Лисица A.B., Мирошниченко Ю.В., Пономаренко E.A. База знаний по цитохромам Р450. //Сборник научных трудов X Российского национального конгресса «Человек и лекарство».-2003.-С.730.

44. Lisitsa A.V., Archakov A.I. Cytochrome P450 Knowledgebase (CPK). IIIn: Abstr. 7й1 International symposium on Cytochrome P450. Biodiversity and biotechnology.-Japan.-2004.-P.43.

46. Арчаков А.И., Гусев С.А., Лисица А.В. База данных по цитохромам Р450. //Свидетельство об официальной регистрации базы данных №2004620199,2004.

2005.-№5.-С.11-17.

52.Пономаренко Е.А., Лисица А.В., Карузина И.И., Гусев С.А. База знаний по цитохромам Р450. //Сборник материалов Сессии ИВТН-2006.-Москва.

2006.-С.32.

53.Шумянцева В.В., Булко Т.В., Рудаков Ю.О., Саменкова Н.Ф., Лисица А.В., Карузина И.И., Арчаков А.И. Наноэлектрохимия цитохромов Р450: прямой перенос электронов и электрокатализ. //Биомедицинская химия.-2006.-Т.52(5).-С.458-68.

54. Ivanov A.S., Gnedenko O.V., Molnar А.А., Mezentsev Yu.V., Lisitsa A.V., Archakov A.I. Protein-protein interactions as new targets for drug design: interactive links between virtual and experimental approaches. /Лп: Abstr. 5rd International conference on bioinformatics of genome regulation and structure.-Novosibirsk.-2006.-V. 1 .-P.277-281.

56. Zgoda V., Tikhonova 0., Lisitsa A., Archakov A. Proteomic profiles of induced hepatotoxicity at the subcellular level. /Лп: Abstr. 3rd International conference "Genomics, proteomics, bioinformatics and nanotechnologies for medicine".-Novosibirsk.-2006.-P.65.

58. Ivanov A., Molnar A., Lisitsa A., Archakov A. Integration of computer and experimental approaches for discovery of inhibitors of protein interactions. //In: Abstr. 3rd International conference "Genomics, proteomics, bioinformatics and nanotechnologies for medicine".-Novosibirsk.-2006.-P.77.

61. Арчаков А.И., Лисица A.B., Пятницкий M.A., Руденко В.А., Тихонова О.В. Протей. //Свидетельство об официальной регистрации программы для ЭВМ №2006611941.-2006.

62. Zgoda V., Tikhonova О., Viglinskaya A., Serebriakova М., Lisitsa A., Archakov A. Proteomic profiles of induced hepatotoxicity at the subcellular level. //Proteomics.-2006.-V.6(16).-P.4662-4670.

Библиография Диссертация по биологии, доктора биологических наук, Лисица, Андрей Валерьевич, Москва

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. (1983). Прикладная статистика. Основы моделирования и первичная обработка данных. Москва, Финансы и статистика. 1:471.

2. Арчаков А.И. (1975). Микросомальное окисление. М., Наука.

3. Астахова Т.В., Олейникова М.А., Ройтберг М.А. (2002). Сравнительный анализ информационных биополимеров. //В кн.: Компьютеры и суперкомпьютеры в биологии (под ред. Лахно В.Д. и Устинина М.Н.). Москва-Ижевск, Институт компьютерных исследований. 449-457.

4. Блюменфельд Л.А. (1977). Проблемы биологической физики. М., Наука.

5. Бородовский М.Ю., Певзнер П.А. (1990). Статистические методы анализа генетических текстов. //В кн.: Компьютерный анализ генетических текстов. Москва, Наука. 36-80.

6. Волькенштейн М.В. (1986). Энтропия и информация. Москва, Наука.

7. Гусев С.А. (2002). Структурно-функциональные мотивы в последовательностях цитохромов Р450. //Диссертация на соискание ученой степени кандидата биологических наук. ГУ НИИ БМХ РАМН им. В.Н. Ореховича, Москва.

8. Дегтяренко К.Н. (1992). Множественное выравнивание и анализ гомологии в надсемействе Р450. //Диссертация на соискание ученой степени кандидата биологических наук. Институт биологической и медицинской химии, Москва.

9. Иванов A.C., Скворцов B.C., Сеченых A.A., Дубанов A.B., Лисица A.B. (2003). Компьютерное моделирование трехмерной структуры цитохрома Р450. //Биомедицинская химия. 49:221-37.

10. Лисица A.B. (2002). Протеомный индекс надсемейства цитохромов Р450. //Диссертация на соискание ученой степени кандидата биологических наук. ГУ НИИ БМХ РАМН им. В.Н. Ореховича, Москва.

11. Лисица A.B., Гусев С.А., Мирошниченко Ю.В., Кузнецова Г.П., Лазарев В.Н., Скворцов B.C., Карузина И.И., Говорун В.М., Арчаков А.И. (2004). Структурно-функциональные мотивы стероловых 14-альфа-деметилаз (CYP51). // Биомедицинская химия. 6:555-567.

12. Лисица A.B., Мирошниченко Ю.В., Иванов A.C., Арчаков А.И. (2003). Общее и частное в структурной организации белков надсемейства цитохромов Р450. //Аллергия, астма и клиническая иммунология. 8:14-19.

13. Мирошниченко Ю.В. (2006). Общее и частное в структурной организации белков надсемейства цитохромов Р450. //Диссертация на соискание ученой степени кандидата биологических наук. ГУ НИИ БМХ РАМН им. В.Н. Ореховича, Москва.

14. Рубин А.Б. (2004). Биофизика в 2-х томах. Т.1: Теоретическая биофизика: Учебник. Москва: МГУ, Наука. Глава 3.

15. Филимонов Д.А., Поройков В.В. (2006). Прогноз спектра биологической активности органических соединений. //Российский Химический Журнал. 2: 66-75.

16. Фоменко А.Е., Соболев Б.Н., Филимонов Д.А., Поройков В.В. (2003). Применение структурных MNA дескрипторов для построения профилей белковых семейств. //Биофизика. 48:595-605.

17. Черныш М.Ф. (2000). Опыт применения кластерного анализа. //Социология: 4М. 12:129-141.

18. Яцкив И., Гусарова JI. (2003). Методы определения количества кластеров при классификации без обучения. //Transport and Telecommunication. 4:23-28.

19. Abagyan R.A., Batalov S. (1997). Do aligned sequences share the same fold? //J. Mol. Biol. 273:355-368.

20. Abecassis V., Urban P., Truan G., Pompon D. (2003). Exploration of natural and artificial sequence spaces: towards a functional remodelling of membrane-bound cytochrome P450s. //Biocatalysis and Biotransformation. 21:55-66.

21. Al-Shahrour F., Minguez P., Vaquerizas J.M., Conde L., Dopazo J. (2005). BABELOMICS: a suite of web tools for functional annotation and analysis of groups of genes in high-throughput experiments. //Nucleic Acids Res. 33:W460-4.

22. Altschul S.F. (1998). Generalized affine gap costs for protein sequence alignment. //Proteins. 32:88-96.

23. Altschul S.F., Bundschuh R., Olsen R, Hwa T. (2001). The estimation of statistical parameters for local alignment score distributions. //Nucleic Acids Res. 29:351-61.

24. Altschul S.F., Erickson B.W. (1985). Significance of nucleotide sequence alignments: a method for random sequence permutation that preserves dinucleotide and codon usage. //Mol. Biol. Evol. 2:526-38.

25. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. (1990). Basic local alignment search tool. //J. Mol. Biol. 215:403-10.

26. Ananko E.A., Podkolodny N.L., Stepanenko I.L., Podkolodnaya O.A., Rasskazov D.A., Miginsky D.S., Likhoshvai V.A., Ratushny A.V., Podkolodnaya N.N., Kolchanov N.A. (2005). GeneNet in 2005. //Nucleic Acids Res. 33:D425-7.

27. Andrade M.A., Valencia A. (1998). Automatic extraction of keywords from scientific text: application to the knowledge domain of protein families. //Bioinformatics. 14:600-607.

28. Archakov A.I., Bachmanova G.I. (1990). Cytochrome P450 and Active Oxygen. Taylor & Francis, 339.

29. Archakov A.I., Degtyarenko K.N. (1993). Structural classification of the P450 superfamily based on consensus sequence comparison. //Biochem Mol Biol Int. 31:1071-80.

30. Archakov A.I., Lisitsa A.V., Zgoda V.G., Ivanova M.S., Koymans L. (1998). Clusterization of P450 superfamily using the objective pair alignment method and the UPGMA program. //J. Mol. Model. 4:234-238.

31. Ashburner M., Ball C.A., Blake J.A., Botstein D., Butler H., Cherry J.M., Davis A.P., Dolinski K., Dwight S.S., Eppig J.T. (2000). Gene Ontology: tool for the unification of biology. //Nature Genet. 25:25-29.

32. Attwood T.K. (2001). A compendium of specific motifs for diagnosing GPCR subtypes. //Trends Pharmacological Sci. 22:162-165.

33. Attwood T.K., Bradley P., Flower D.R., Gaulton A., Maudling N., Mitchell A.L., Moulton G., Nordle A., Paine K., Taylor P., Uddin A., Zygouri C. (2003). PRINTS and its automatic supplement, prePRINTS. //Nucleic Acids Res. 31:400-402.

34. Bader G.D., Betel D., Hogue C.W. (2003). BIND: the Biomolecular Interaction Network Database. //Nucleic Acids Res. 31:248-50.

35. Bairoch A. (2000). The ENZYME database in 2000. //Nucleic Acids Res. 28:304305.

36. Barney B.M. (2006). Classification of proteins based on minimal modular repeats: lessons from nature in protein design. //J. Proteome Res. 5:473-82.

37. Benson D.A, Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L. (2006). GenBank. //Nucleic Acids Res. 34:16-20.

38. Berger M.P., Munson P.J. (1991). A novel randomized iterative strategy for aligning multiple protein sequences. //Comput Appl Biosci. 7:479-84.

39. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N., Bourne P.E. (2000). The Protein Data Bank. //Nucleic Acids Res. 28:235-42.

40. Bernhardt R. (2004). Optimized chimeragenesis; creating diverse p450 functions. //Chem Biol. 11:287-8.

41. Bhat T.N., Bourne P., Feng Z., Gilliland G., Jain S., Ravichandran V., Schneider B., Schneider K., Thanki N., Weissig H., Westbrook J., Berman H.M. (2001). The PDB data uniformity project. //Nucleic Acids Res. 29:214-218.

42. Blaschke C., Andrade M.A., Ouzounis C., Valencia A. (1999). Automatic extraction of biological information from scientific text: Protein-protein interactions. //International Conference on Intelligent Systems for Molecular Biology. 7:60-67.

43. Boguski M.S., Lowe T.M., Tolstoshev C.M. (1993). dbEST—database for "expressed sequence tags". //Nature Genet. 4:332-333.

44. Borodina Yu., Sadym A., Filimonov D., Blinova V., Dmitriev A., Poroikov V. (2003). Predicting biotransformation potential from molecular structure. J. Chem. Inform. //Comput. Sci. 43:1636-1646.

45. Brooks B.R. (1983). CHARMM: A program for macromolecular energy, minimization, and dynamics calculations. //J. of Computational Chemistry. 4:187217.

46. Bucher P., Bairoch A. (1994). A generalized profile syntax for biomolecular sequence motifs and its function in automatic sequence interpretation. //Proc Int Conf Intell Syst Mol Biol. 2:53-61.

47. Bucher P., Karplus K., Moeri N., Hofmann K. (1996). A flexible motif search technique based on generalized profiles. //Comput. Chem. 20:3-23.

48. Burrage K., Hood L., Ragan M.A. (2006). Advanced computing for systems biology. //Brief Bioinform. 7:390-8.

49. Chakrabarti S., Van den Berg M., Dom B. (1998). Focused crawling: A new approach to topic-specific web resource discovery. //Proc. of the WWW-8, May.

50. Chefson A., Auclair K. (2006). Progress towards the easier use of P450 enzymes. //Mol Biosyst. 2:462-9.

51. Cohen M.B., Feyereisen R.(1995). A cluster of cytochrome P450 genes of the CYP6 family in the house fly. DNA Cell Biol. 14:73-82.

52. Cowie J., Lehnert W. (1996). Information Extraction. //Communications of the ACM. 39:80-91.

53. Davies D.L., Bouldin D.W. (1979). A cluster separation measure. //Pattern Anal. Machine Intell. 1:224-227.

54. Dayhoff M.O., Barker W.C., Hunt L.T. (1983). Establishing homologies in protein sequences. //Methods Enzymol.91:524-545.

55. Dayhoff M.O., Schwartz R.M., Orcutt B.C. (1978). In Atlas of Protein Sequence and Structure (ed. M.O. Dayhoff, ed.). National Biomedical Research Foundation, Washington, DC. 3:345.

56. Degtyarenko K.N., Archakov A.I. (1993). Molecular evolution of P450 superfamily and P450-containing monooxygenase systems. //FEBS Lett. 332:1-8.

57. Deken J. (1983). Probabilistic behavior of longest-common-subsequence length. //In Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison. Sankoff D., Kruskal J.B. (eds.). Addison-Wesley, Reading MA., 55-91.

58. Dembo A., Karlin S., Zeitouni O. (1994). Limit distribution of maximal non-aligned two-sequence segmental score. //Ann. Prob. 22:2022-2039.

59. Doolittle R.F. (1986). Of URFs and ORFs: a primer On How To Analyze derived amino acid sequences. University Science Books, Mill Valley, California.

60. Efron B., Halloran E., Holmes S. (1996). Bootstrap confidence levels for phylogenetic trees. //Proc Natl Acad Sci USA. 93:13429-34.

61. Eggertsen G., Olin M., Andersson U., Ishida H., Kubota S., Hellman U., Okuda K.I., Bjorkhem I. (1996). Molecular cloning and expression of rabbit sterol 12alpha-hydroxylase. //J. Biol Chem. 271:32269-75.

62. Eisen J.S. (1998). Genetic and molecular analyses of motoneuron development. //Curr OpinNeurobiol. 8:697-704.

63. Ekins S., Bravi G., Wikel J.H., Wrighton S.A. (1999). Three-dimensional-quantitative structure activity relationship analysis of cytochrome P-450 3A4 substrates. //J. Pharmacol. Exp. Ther. 291:424-33.

64. Ekins S., Wrighton S.A. (2001). Application of in silico approaches to predicting drug-drug interactions. //J. Pharmacol. Toxicol. Methods. 45:65-9.

65. Estabrook R.W. (2003). A passion for P450s (rememberances of the early history of research on cytochrome P450). //Drug Metab. Dispos. 31:1461-73.

66. Etzold T., Ulyanov A.V., Argos P. (1996). SRS: information retrieval system for molecular biology data banks. //Methods Enzymol. 266:114-128.

67. Fabian P., Degtyarenko K.N. (1997). The directory of P450-containing systems in 1996. //Nucleic Acids Research. 25:274-277.

68. Felsenstein J. (1988). Phylogenies from molecular sequences: inference and reliability. //Annu. Rev. Genet. 22:521-565.

69. Feng D.F., Doolittle R.F. (1987). Progressive sequence alignment as a prerequisite to correct phylogenetic trees. //J. Mol. Evol. 25:351-60.

70. Filimonov D., Poroikov V., Borodina Yu., Gloriozova T. (1999). Chemical Similarity Assessment through multilevel neighborhoods of atoms: definition and comparison with the other descriptors. //J. Chem. Inf. Comput. Sci. 39:666-670.

71. Fitch W.M. (1970). Distinguishing homologous from analogous proteins. //Systematic Zoology. 19:99-106.

72. Fitch W.M. (1983). Random sequences. //J. Mol. Biol. 163:171-6.

73. Fitch W.M. (2000). Homology a personal view on some of the problems. //Trends Genet. 16:227-231.

74. Fleischmann W., Moller S., Gateau A., Apweiler R (1999). A novel method for automatic functional annotation of proteins. //Bioinformatics. 15:228-233.

75. FlyBase Consortium (1994). FlyBase the Drosophila database. //Nucleic Acids Res. 22:3456-3458.

76. FlyBase Consortium (2003). The FlyBase database of the Drosophila genome projects and community literature. //Nucleic Acids Res. 31:172-175.

77. Fogleman J.C. (2000). Response of Drosophila melanogaster to selection for P450-mediated resistance to isoquinoline alkaloids. //Chem. Biol. Interact. 125:93-105.

78. Fomenko A.E., Filimonov D.A., Sobolev B.N., Poroikov V.V. (2006). New approach to predict enzyme function without the alighnment. //OMICS: A Journal of Integrative Biology. 10:56-65.

79. Fukuda K., Tsunoda T., Tamura A., Takagi T. (1998). Toward information extraction: identifying protein names from biological papers. //Pac. Symp. Biocomput., 707-718.

80. Gaizauskas R., Wilks Y. (1998). Information Extraction: Beyond Document Retrieval. Journal of Documentation. 54:70-105.

81. Garcia C.A, Chen Y.P., Ragan M.A. (2005). Information integration in molecular bioscience. //Appl Bioinformatics. 4:157-73.

82. Gasteiger E., Gattiker A., Hoogland C., Ivanyi I., Appel R.D., Bairoch A. (2003). ExPASy: The proteomics server for in-depth protein knowledge and analysis. //Nucleic Acids Res. 31:3784-8.

83. Gattiker A., Gasteiger E., Bairoch A. (2002). ScanProsite: a reference implementation of aPROSITE scanning tool. //Applied Bioinform. 1:107-108.

84. Gell-Mann M. (1994). A child learning the language: Algorithmic complexity and informational content. //The quark and the jaguar: adventures in the simple and the complex. W.H. Freeman and Company: New York, 58-60.

85. Gilardi G., Meharenna Y.T., Tsotsou G.E., Sadeghi S.J., Fairhead M., Giannini S. (2002). Molecular Lego: design of molecular assemblies of P450 enzymes for nanobiotechnology. //Biosens Bioelectron. 17:133-45.

86. Gonzalez F.J., Gelboin H.V. (1992). Human cytochromes P450: evolution and cDNA-directed expression. //Environ Health Perspect. 98:81-85.

87. Goto S., Nishioka T., Kanehisa M. (1998). LIGAND: chemical database for enzyme reactions. //Bioinformatics. 14:591-599.

88. Gotoh O. (1990). Consistency of optimal sequence alignments. //Bull Math Biol. 52:509-25.

89. Gotoh O. (1992). Substrate recognition sites in cytochrome P450 family 2 (CYP2) proteins inferred from comparative analyses of amino acid and coding nucleotide sequences. //J. Biol. Chem. 267:83-90.

90. Gotoh O. (1993). Optimal alignment between groups of sequences and its application to multiple sequence alignment. Comput Appl Biosci. 9:361-70.

91. Gotoh O. (1999). Multiple sequence alignment: algorithms and applications. //Adv. Biophys. 36:159-206.

92. Gotoh O. (2000). Homology-based gene structure prediction: simplified matching algorithm using a translated codon (tron) and improved accuracy by allowing for long gaps. //Bioinformatics. 16:190-202.

93. Graham S.E., Peterson J.A. (2002). Sequence alignments, variabilities, and vagaries. //Methods Enzymol. 357:15-28.

94. Gribskov M., Luthy R., Eisenberg D. (1990). Profile analysis. //Methods Enzymol. 183:146-159.

95. Gribskov M., McLachlan A.D., Eisenberg D. (1987). Profile analysis: detection of distantly related proteins. //Proc. Natl. Acad. Sci. USA. 84:4355-4358.

96. Guengerich F.P. (1992). Characterization of human cytochrome P450 enzymes. //FASEB J. 6:745-8.

97. Guex N., Peitsch M.C. (1997). SWISS-MODEL and the Swiss-PdbViewer: An environment for comparative protein modeling. //Electrophoresis. 18:2714-2723.

98. Gumbel EJ. (1958). Statistics of extremes. Columbia Iniversity Press, New York, NY.

99. Gunsalus I.C., Pederson T.C., Sligar S.G. (1975). Oxygenase-catalyzed biological hydroxylations. IIAram. Rev. Biochem. 44:377-407.

100. Halkidi M., Batistakis Y., Vazirgiannis (2001). On clustering Validation Techniques.//Journal of Intelligent Information Systems. 17:107-145.

101. Harris T., Lee R., Schwarz E., Bradnam K., Lawson D., Chen W., Blasier D., Kenny E., Cunningham F., Kishore R. (2003). WormBase: a cross-species database for comparative genomics. //Nucleic Acids Res. 31:133-137.

102. Hayaishi O. (1974). Molecular Mechanisms of 02 Activation. Academic, New York.

103. Heinemann M., Panke S. (2006). Synthetic biology-putting engineering into biology. //Bioinformatics. 22:2790-9.

104. Henikoff S., Greene E.A., Pietrokovski S., Bork P., Attwood T.K., Hood L. (1997). Gene families: the taxonomy of protein paralogs and chimeras. //Science. 278:609-614.

105. Henikoff S., Henikoff J.G. (1992). Amino acid substitution matrices from protein blocks. //Proc. Natl. Acad. Sci. USA. 89:10915-9.

106. Henikoff S., Henikoff J.G. (1993). Performance evaluation of amino acid substitution matrices. //Proteins. 17:49-61.

107. Hersh W.R., Evans D.A., Monarch I.A., Lefferts R.G., Handerson S.K., Gorman P.N. (1992). Indexing Effectiveness of Linguistic and Non-Linguistic Approaches to Automatic Indexing. Elsevier Science Publishers, Amsterdam.

108. Higgins D.G., Bleasby A.J., Fuchs R. (1992). CLUSTAL V: improved software for multiple sequence alignment. //Comput. Appl. Biosci. 8:189-91.

109. Higgins D.G., Thompson J.D., Gibson T.J. (1996). Using CLUSTAL for multiple sequence alignments. //Methods Enzymol. 266:383-402.

110. Hoogland C., Sanchez J.-C., Tonella L., Binz P.-A., Bairoch A., Hochstrasser D.F., Appel R.D. (2000). The 1999 SWISS-2DPAGE database update. //Nucleic Acids Res. 28:286-288.

111. Hubbard T., Barker D., Birney E., Cameron G., Chen Y., Clark L., Cox T., Cuff J., Curwen V., Down,T. (2002). The Ensembl genome database project. //Nucleic Acids Res. 30:38-41.

112. Huynen M.A., Bork P. (1998). Measuring genome evolution. //Proc. Natl. Acad. Sci. USA. 95:5849-5856.

113. Ioannides C., Lewis D.F., Parke D.V. (1993). Computer modelling in predicting carcinogenicity. //Eur. J. Cancer Prev. 2:275-82.

114. Jonassen I., Collins J.F., Higgins D.G. (1995). Finding flexible patterns in unaligned protein sequences. //Protein Sci. 4:1587-95.

115. Kalinina O.V., Mironov A.A., Gelfand M.S., Rakhmaninova A.B. (2004a). Automated selection of positions determining functional specificity of proteins by comparative analysis of orthologous groups in protein families. //Protein Sci. 13:443-456.

116. Kalita M.K., Ramasamy G., Duraisamy S., Chauhan V.S., Gupta D. (2006). ProtRepeatsDB: a database of amino acid repeats in genomes. //BMC Bioinformatics. 7:336.

117. Kanehisa M. (1997). A database for post-genome analysis. //Trends Genet. 13:375-376.

118. Kanehisa M., Goto S. (2000). KEGG: kyoto encyclopedia of genes and genomes. //Nucleic Acids Res. 28:27-30.

119. Kanehisa M., Goto S., Hattori M., Aoki-Kinoshita K.F., Itoh M., Kawashima S., Katayama T., Araki M., Hirakawa M. (2006). From genomics to chemical genomics: new developments in KEGG. //Nucleic Acids Res. 34:D354-7.

120. Kanehisa M., Goto S., Kawashima S., Okuno Y., Hattori M. (2004). The KEGG resource for deciphering the genome. //Nucleic Acids Res. 32:D277-D280.

121. Kans J.A., Ouellette B.F.F. (2001). Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. Baxevanis A., Ouellette B.F.F., editors. New York, NY: John Wiley and Sons, Inc.; 65-81.

122. Karlin S., Altschul S.F. (1990). Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. //Proc. Natl. Acad. Sci. USA. 87:2264-2268.

123. Karlin S., Brocchieri L., Bergman A., Mrazek J., Gentles A.J. (2002). Amino acid runs in eukaryotic proteomes and disease associations. //Proc. Natl. Acad. Sci. USA. 99:333-8.

124. Kimura M. (1983). The Neutral Theory of Molecular Evolution. Cambridge University Press, Cambridge, UK.

125. Kimura M. (1991). The neutral theory of molecular evolution: a review of recent evidence. //Jpn J. Genet. 66:367-86.

126. Kocsor A., Kertesz-Farkas A., Kajan L., Pongor S. (2006). Application of compression-based distance measures to protein sequence classification: a methodological study. //Bioinformatics. 22:407-12.

127. Kolchanov N.A., Ananko E.A., Kolpakov F.A., Podkolodnaya O.A., Ignateva E.V., Goiyachkovskaya T.N., Stepanenko I.L. (2000). Gene networks. //Mol. Biol. (Moskow). 34:449-460.

128. Krull M., Voss N., Choi C., Pistor S., Potapov A., Wingender E. (2003). TRANSPATH: an integrated database on signal transduction and a tool for array analysis. //Nucleic Acids Res. 31:97-100.

129. Kuralenok I., Dobiynin V., Nekrestyanov I., Bessonov M., Patel A. (1999). Distributed search in topic-oriented document collections. //Proc. of World Multiconference on Systemics, Cybernetics and Informatics (SCI'99). 4:377-383.

130. Lamb D.C., Fowler K., Kieser T., Manning N., Podust L.M., Waterman M.R., Kelly D.E., Kelly S.L. (2002). The cytochrome P450 complement (CYPome) of Streptomyces coelicolor A3(2). //J. Biol. Chem. 277:24000-5.

131. Laskin A.A., Kudiyashov N.A., Skryabin K.G., Korotkov E.V. (2005). Latent periodicity of serine-threonine and tyrosine protein kinases and other protein families. //Comput. Biol. Chem. 29:229-43.

132. Lau A.Y., Chasman D.I. (2004). Functional classification of proteins and protein variants. //Proc. Natl. Acad. Sci. USA. 101:6576-81.

133. Leinonen R., Nardone F., Zhu W., Apweiler R. (2006). UniSave: the UniProtKB sequence/annotation version database. //Bioinformatics. 22:1284-1285.

134. Lempel A., Ziv J. (1976). On the complexity of finite sequences. //IEEE Transactions on Information Theory. 22:75-81.

135. Lesk A.M. (1988). In Lesk AM (ed.) Computational Molecular Biology. Oxford University Press, Oxford, 17-26.

136. Levan G., Jacob H.J. (2006). Nomenclature of the rat Cyp genes and the problems of gene nomenclature in general. //Hum. Genomics. 2:343-4.

137. Lewi P.J., Moereels H., Adriaensen D. (1992). The combination of dendrograms with plots of latent variables. An application to G-protein coupled receptor sequences.//Chem. Intell. 16:145-54.

138. Lewis D., Jones K. (1996). Natural language processing for information retrieval. //Commun. ACM. 39:92-101.

139. Lewis D.F. (2003). Quantitative structure-activity relationships (QSARs) within the cytochrome P450 system: QSARs describing substrate binding, inhibition and induction of P450s. //Inflammopharmacology. 11:43-73.

140. Lewis D.F., Sheridan G. (2001). Cytochromes P450, oxygen, and evolution. //Scientific World Journal. 1:151 -67.

141. Lipman D.J., Wilbur W.J. (1984). Interaction of silent and replacement changes in eukaryotic coding sequences. Hi. Mol. Evol. 21:161-167.

142. Lisitsa A., Archakov A., Lewi P., Janssen P. (2003). Bioinformatic insight into the unity and diversity of cytochromes P450. //Methods and Findings in Experimental and Clinical Pharmacology. 25:733-745.

143. Lisitsa A.V., Gusev S.A., Karuzina I.I., Archakov A.I. and Koymans L. (2001). Cytochrome P450 Database. //SAR QSAR Environ Res. 12:359-366.

144. Liu X., Liu D., Qi J., Zheng W.M. (2002). Simplified amino acid alphabets based on deviation of conditional probability from random background. //Phys Rev E Stat Nonlin Soft Matter Phys. 66:021906.

145. Lo Conte L., Ailey B., Hubbard T.J., Brenner S.E., Murzin A.G., Chothia C. (2000). SCOP: a structural classification of proteins database. Nucleic Acids Res. 28:257-9.

146. Lopez P., Casane D., Philippe H. (2002). Heterotachy, an important process of protein evolution. //Mol. Biol. Evol. 19:1-7.

147. MacKerell A.D. Jr. (1998). All-atom empirical potential for molecular modeling and dynamics Studies of proteins. //Journal of Physical Chemistry. 102:3586-3616.

148. Mann HJ. (2006). Drug-associated disease: cytochrome P450 interactions. //Crit. Care. Clin. 22:329-45.

149. Mao B., Gozalbes R., Barbosa F., Migeon J., Merrick S., Kamm K., Wong E., Costales C., Shi W„ Wu C., Froloff N. (2006). QSAR modeling of in vitro inhibition of cytochrome P450 3A4. //J. Chem. Inf. Model. 46:2125-34.

150. Marcotte E.M., Xenarios I., Eisenberg D. (2001). Mining literature for proteinprotein interactions. //Bioinformatics. 17:359-63.

151. Matsunaga L., Yamada A., Lee D. S. (2002). Enzymatic reaction of hydrogen peroxide—dependent peroxygenase cytochrome P450s: kinetic deuterium isotope effects and analyses by resonance Raman spectroscopy. Biochemistry. 41:1886-1892.

152. McGinnis S., Madden T. (2004). BLAST: at the core of a powerful and diverse set of sequence analysis tools. //Nucleic Acids Res. 32:W20-W25.

153. McKusick V.A. (1998). Mendelian Inheritance in Man. Catalogs of Human Genes and Genetic Disorders. //12th edn. Baltimore, MD: The Johns Hopkins University Press.

154. Meyer M.M., Hochrein L., Arnold F.H. (2006). Structure-guided SCHEMA recombination of distantly related beta-lactamases. //Protein Eng. Des. Sel. 19:56370.

155. Mimy L.A., Gelfand M.S. (2002). Using orthologous and paralogous proteins to identify specificity-determining residues in bacterial transcription factors. //J. Mol. Biol. 321:7-20.

156. Moereels H., Lewi P.J., Koymans L.M., Janssen P.A. (1997). The alpha and omega of G protein-coupled receptors. A novel method for classification. //Ann. NY Acad. Sci. 812:147-8.

157. Morgenstern B. (1999). DIALIGN 2: improvement of the segment-to-segment approach to multiple sequence alignment. //Bioinformatics. 15:211-218.

158. Mosteller F., Wallace D.L. (1984). Applied Bayesian and Classical Inference: the Case of the Federalist Papers. Springer, New York.

159. Mulder N., Apweiler R., Attwood T., Bairoch A., Barrell D., Bateman A., Binns D., Biswas M., Bradley P., Bork P. (2003). The InterPro Database, 2003 brings increased coverage and new features. //Nucleic Acids Res. 31:315-318.

160. Muppirala U.K., Li Z. (2006). A simple approach for protein structure discrimination based on the network pattern of conserved hydrophobic residues. //Protein Eng. Des. Sel. 19:265-75.

161. Murakami K., Mihara K., Omura T. (1994). The transmembrane region of microsomal cytochrome P450 identified as the endoplasmic reticulum retention signal. IIJ. Biochem (Tokyo). 116:164-75.

162. Nagarajan N., Jones N., Keich U. (2005). Computing the P-value of the information content from an alignment of multiple sequences. //Bioinformatics. I:i311-8.

163. Nebert D.W., Adesnik M., Coon M.J. (1987). The P450 gene superfamily: recommended nomenclature. //DNA. 6:1-11.

164. Nebert D.W., Jaiswal A.K., Meyer U.A., Gonzalez F.J. (1987). Human P-450 genes: evolution, regulation and possible role in carcinogenesis. //Biochem. Soc. Trans. 15:586-9.

165. Nebert D.W., Nelson D.R. (1991). P450 gene nomenclature based on evolution. //Methods Enzymol. 206:3-11.

166. Nebert D.W., Nelson D.R., Feyereisen R. (1989). Evolution of the cytochrome P450 genes. //Xenobiotica. 19:1149-1160.

167. Needleman S.B., Wunsch C.D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. //J. Mol. Biol. 48:44353.

168. Nekrasov A.N. (2004). Analysis of the information structure of protein sequences: a new method for analyzing the domain organization of proteins. //J. Biomol. Struct. Dyn. 21:615-24.

169. Nekrestyanov I., O'Meara T., Romanova E. (1999). Building topic-specific collections with intelligent agents. Proc. //Of Sixth International Conference on Intelligence in Services and Networks (IS&N'99), Barcelona, Spain, April.

170. Nelson D.R. (1999). Cytochrome P450 and the individuality of species. //Arch. Biochem. Biophys. 369:1-10.

171. Nelson D.R. (2004). Frankenstein genes, or the Mad Magazine version of the human pseudogenome.//Hum. Genomics. 1:310-316.

172. Nelson D.R. (2005). Gene nomenclature by default, or BLASTing to Babel. //Hum Genomics. 2:196-201.

173. Nelson D.R., Strobel H.W. (1987). Evolution of cytochrome P-450 proteins. //Mol. Biol. Evol. 4:572-593.

174. Nelson DR. (2006). Cytochrome P450 nomenclature, 2004. //Methods Mol. Biol. 320:1-10.

175. Nenadic G., Mima H., Spasic I., Ananiadou S., Tsujii J. (2002). Terminology-driven literature mining and knowledge acquisition in biomedicine. //Int. J. Med. Inform. 67:33-48.

176. Ng S., Wong M. (1999). Toward Routine Automatic Pathway Discovery from Online Scientific Text Abstracts. //Genome Inform Ser Workshop Genome Inform. 10:104-112.

177. Pang H., Tang J., Chen S.S. (2005). Statistical distributions of optimal global alignment scores of random protein sequences. //BMC Bioinformatics. 6:257.

178. Papka R., Allan J. (1998). Document classification using multiword features. //Proc. Of the CIKM'98.124-131.

179. Peitsch M.C. (1995). Protein modelling by E-Mail. //Biotechnology. 13:658-660.

180. Peitsch M.C. (1997). Large scale protein modelling and model repository. //Proc. Int. Conf. Intell. Syst. Mol. Biol. 5:234-236.

181. Podust L.M., Poulos T.L., Waterman M.R. (2001). Crystal structure of cytochrome P450 14alpha -sterol demethylase (CYP51) from Mycobacterium tuberculosis in complex with azole inhibitors. //Proc. Natl. Acad. Sci. USA. 98:3068-73.

182. Proux D., Rechenmann F., Julliard L., Pillet V., Jacq B. (1998). Detecting Gene Symbols and Names in Biological Texts: A First Step toward Pertinent Information Extraction. //Genome Inform Ser Workshop Genome Inform. 9:72-80.

183. Pruitt K., Maglott D. (2001). RefSeq and LocusLink: NCBI gene-centered resources. //Nucleic Acids Res. 29:137-140.

184. Pruitt K., Tatusova T., Maglott D. (2005). Entrez Gene. //Nucleic Acids Res. 33:D54-D58.

185. Pruitt K.D., Tatusova T., Maglott D.R. (2005). NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. //Nucleic Acids Res. 33:D501-D504.

186. Raevsky O.A. (1997). Hydrogen Bond Strengtn Estimation by means of HYBOT. //In "Computer-Assisted Lead Finding and Optimization" eds H.Waterbeemd, B.Testa, G.Folkers, Basel: Verlag, 367-378.

187. Reich J.G., Drabsch H., Daumler A. (1984). On the statistical assessment of similarities in DNA sequences. //Nucl. Acids Res. 12:5529-5543.

188. Rendic S., Di Carlo F. (1997). Human Cytochrome P450 Enzymes: A status report summarizing their reactions, substrates, inducers and inhibitors. //Drug Metabolism Reviews. 29:413-580.

189. Rindflesch T.C., Tanabe L., Weinstein J.N., Hunter L. (2000). EDGAR: extraction of drugs, genes and relations from the biomedical literature. //Pac. Symp. Biocomput. 5:517-528.

190. Rodriguez-Tome P., Stoehr P.J„ Cameron G.N., Flores T.P. (1996). The European Bioinformatics Institute (EBI) databases. //Nucleic Acids Res. 24:6-12.

191. Saitou N., Nei M. (1987). The neighbor joining method: a new method for reconstructing phylogenetic trees. //Mol. Biol. Evol. 4:406-425.

192. Sali A., Potterton L., Yuan F., van Vlijmen H., Karplus M. (1995). Evaluation of comparative protein modeling by MODELLER. //Proteins. 23:318-26.

193. Salton G. (1989). Automatic Text Processing: the transformation, analysis and retrieval of information by computer. Reading, Mass. Addison Wesley.

194. Sawyer S. (1989). Statistical tests for detecting gene conversion. //Mol. Biol. Evol. 6:526-38.

195. Schuler G.D. (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. //J. Mol. Med. 75:694-698.

196. Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. (1996). Entrez: molecular biology database mid retrieval system. //Methods Enzymol. 266:141-162.

197. Schwab W. (2003). Metabolome diversity: too few genes, too many metabolites? //Phytochemistry. 62:837-49.

198. Scordis P., Flower,D.R. and Attwood,T.K. (1999). FingerPRINTScan: intelligent searching of the PRINTS motif database. //Bioinformatics. 15:799-806.

199. Scott E.E., He Y.Q., Halpert J.R. (2002). Substrate routes to the buried active site may vary among cytochromes P450: mutagenesis of the F-G region in P450 2B1. //Chem. Res. Toxicol. 15:1407-13.

200. Searls D.B. (2001). Reading the book of life. //Bioinformatics. 17:579-80.

201. Seifert A., Tatzel S., Schmid R.D., Pleiss J. (2006). Multiple molecular dynamics simulations of human p450 monooxygenase CYP2C9: the molecular basis of substrate binding mid regioselectivity toward warfarin. //Proteins. 64:147-55.

202. Sellers P.H. (1974). On the theory and computation of evolutionary distances. //SLAM J. Appl. 26:787-793.

203. Sellers P.H. (1984). Pattern recognition in genetic sequences by mismatch density. //Bull. Math. Biol. 46:501-514.

204. Shakhnovich E.I., Gutin A.V. (1990). Implication of Thermodynamics of Protein Folding for Evolution of Primary Sequences. //Nature. 346:773-775.

205. Sherman B. (1950). A random variable related to the spacing of sample values. //Ann. Math. Stat. 21:339-361.

206. Sherman B. (1957). Percentiles of the w(n) statistic. //Ann. Math. Stat. 28:259261.

207. Sheriy S.T., Ward M.H., Kholodov M., Baker J., Pham L., Smigielski E., Sirotkin K. (2001). dbSNP: The NCBI database of genetic variation. //Nucleic Acids Res. 29:308-311.

208. Shi J., Blundell T.L., Mizuguchi K. (2001). FUGUE: sequence-structure homology recognition using environment-specific substitution tables and structure-dependent gap penalties. //J. Mol. Biol. 310:243-57.

209. Shrager J. (2003). The fiction of function. //Bioinformatics. 19:1934-6.

210. Sigrist C.J.A., Cerutti L., Hulo N., Gattiker A., Falquet L., Pagni M., Bairoch A., Bucher P. (2002). PROSITE: a documented database using patterns and profiles as motif descriptors. //Briefings Bioinform. 3:265-274.

211. Simpson A.E. (1997). The cytochrome P450 4 (CYP4) family. Gen Pharmacol. 28:351-9.

212. Smith S.L., Bollenbacher W.E., Cooper D.Y., Schleyer., Weilgus J.J., Gilbert L.I. (1979). Ecdysone 20-monooxygenase: characterization of an insect cytochrome p-450 dependent steroid hydroxylase. //Mol. Cell. Endocrinol. 15:111-113.

213. Smith T.F., Waterman M.S. (1981). Identification of common molecular subsequences. //J. Mol. Biol. 147:195-7.

214. Smith T.F., Waterman M.S., Burks C. (1985). The statistical distribution of nucleic acid similarities. //Nucleic Acids Res. 13:645-656.

215. Sneath P.H.A. (1995). The distribution of the random division of a molecular sequence. //Binary. 7:148-152.

216. Sneath P.H.A. (1998). The effect of evenly spaced constant sites on the distribution of the random division of a molecular sequence. //Bioinformatics. 14:608-616.

217. Sneath P.H.A., Sokal RR. (1973). Numerical Taxonomy. San Francisco: W.H. Freeman.

218. Solovyev V.V., Makarova K.S. (1993). A novel method of protein sequence classification based on oligopeptide frequency analysis and its application to search for functional sites and to domain localization. //Comput. Appl. Biosci. 9:17-24.

219. Sonnhammer E.L., Eddy S.R., Birney E., Bateman A., Durbin R. (1998). Pfam: multiple sequence alignments aid HMM-profiles of protein domains. //Nucleic Acids Res. 26:320-322.

220. Sonnhammer E.L., Koonin E.V. (2002). Orthology, paralogy and proposed classification for paralog subtypes. //Trends Genet. 18:619-620.

221. Stata R., Bharat K., Maghoul F. (2000). The term vector database: fact access to indexing terms for web pages. //Proc.of the WWW-9, May.

222. Stoesser G., Baker W., van den Broek A., Garcia-Pastor M., Kanz C., Kulikova T., Leinonen R., Lin Q„ Lombard V., Lopez R. (2003). The EMBL Nucleotide Sequence Database: major new development. //Nucleic Acids Res. 30:21-26.

223. Sugiura A., Etzioni 0. (2000). Query routing for web search engines: Architecture and experiments. //Proc. Of the WWW-9, May.

224. Susko E., Field C., Blouin C., Roger AJ. (2003). Estimation of rates-across-sites distributions in phylogenetic substitution models. //Syst. Biol. 52:594-603.

225. Tatusov R.L., Fedorova N.D., Jackson J.D., Jacobs A.R., Kiryutin B., Koonin E.V., Kiylov D.M., Mazumder R., Mekhedov S.L., Nikolskaya A.N., Rao B.S. (2003). The COG database: an updated version includes eukaryotes. //BMC Bioinformatics. 4:41.

226. Tatusov R.L., Koonin E.V., Lipman D.J. (1997). A genomic perspective on protein families. //Science. 278:631-637.

227. Tatusova T., Karsch-Mizrachi I., Ostell J. (1999). Complete genomes in WWW Entrez: data representation and analysis. //Bioinformatics. 15:536-543.

228. Tatusova T.A., Madden T.L. (1999). BLAST 2 Sequences, a new tool for comparing protein and nucleotide sequences. //FEMS Microbiol. Lett. 174:247-50.

229. Taylor W.R. (1990). Hierarchical method to align large numbers of biological sequences, //Methods Enzymol. 183:456-474.

230. The International HapMap Consortium (2003). The International HapMap Project. //Nature. 426:789-796.

231. The UniProt Consortium. (2007). The Universal Protein Resource (UniProt). //Nucleic Acids Res. 35:D193-7.

232. Thomas J., Milward D., Ouzounis C., Pulman S., Carroll M. (2000). Automatic extraction of protein interactions from scientific abstracts. //Pac. Symp. Biocomput. 5:541-542.

233. Thompson J.D., Higgins,D.G., Gibson,T.J. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. //Nucleic Acids Res. 22:4673-4680.

234. Turutina V.P., Laskin A.A., Kudiyashov N.A., Skiyabin K.G., Korotkov E.V. (2006). Identification of amino acid latent periodicity within 94 protein families. //J. Comput. Biol. 13:946-64.

235. Unno M., Shimada H., Toba Y., Makino R., Ishimura Y. (1996). Role of Argll2 of cytochrome p450cam in the electron transfer from reduced putidaredoxin. Analyses with site-directed mutants. //J. Biol. Chem. 271:17869-74.

236. Vinga S., Almeida J. (2003). Alignment-free sequence comparison-a review. //Bioinformatics. 19:513-23.

237. Wang Q., Halpert J.R. (2002). Combined three-dimensional quantitative structure-activity relationship analysis of cytochrome P450 2B6 substrates and protein homology modeling. //Drug Metab. Dispos. 30:86-95.

238. Waterman M.S. (1994). Parametric and ensemble sequence alignment algorithms. //Bull. Math. Biol. 56:743-67.

239. Waterman M.S., Vingron M. (1994). Rapid and accurate estimates of statistical significance for sequence data base searches. //Proc. Natl. Acad. Sci. USA. 91:4625-4628.

240. Webber C., Barton G.J. (2001). Estimation of P-values for global alignments of protein sequences. //Bioinformatics. 17:1158-67.

241. Werck-Reichhart D., Feyereisen R. (2000). Cytochromes P450: a success story. //Genome Biol. 1:REVIEWS3003.

242. Westbrook J., Feng Z., Chen L., Yang H., Berman H. (2003). The Protein Data Bank and structural genomics. //Nucleic Acids Res. 31:489-491.

243. Wieser D., Kretschmann E., Apweiler R. (2004). Filtering erroneous protein annotation. //Bioinformatics. 20:342-347.

244. Wilson C.A., Kreychman J., Gerstein M. (2000). Assessing annotation transfer for genomics: quantifying the relations between protein sequence, structure and function through traditional and probabilistic scores. //J. Mol. Biol. 297:233-249.

245. Wingender E. (1988). Compilation of transcription regulating proteins. //Nucleic Acids Res. 16:1879-1902.

246. Word J.M., Lovell S.C., Richardson J.S., Richardson D.C. (1999). Asparagine and glutamine: using hydrogen atom contacts in the choice of side-chain amide orientation. //J. Mol. Biol. 285:1733-1747.

247. Yamada S., Gotoh O., Yamana H. (2006). Related Articles, Links Improvement in accuracy of multiple sequence alignment using novel group-to-group sequence alignment algorithm with piecewise linear gap cost. //BMC Bioinformatics. 7:524.

248. Ye J., McGinnis S., Madden T.L. (2006). BLAST: improvements for better sequence analysis. //Nucleic Acids Res. 34:W6-9.

249. Zhao J., Goble C., Stevens R. (2004). Semantically linking and browsing provenance logs for e-science. //In First International Conference on Semantics of a Networked World. 157-174.

250. Zharkikh A., Li W.H. (1995). Estimation of confidence in phylogeny: the complete-and-partial bootstrap technique. //Mol. Phylogenet. Evol. 4:44-63.

251. Zharkikh A.A., Rzhetsky A.Yu. (1993). Quick assessment of similarity of two sequences by comparison of their L-tuple frequencies. //Biosystems. 30:93-111.1. БЛАГОДАРНОСТИ

Информация о работе

Лисица, Андрей Валерьевич
доктора биологических наук
Москва, 2007
ВАК 03.00.28

Диссертация

База знаний по цитохромам Р450: разработка и применение - тема диссертации по биологии, скачайте бесплатно

Автореферат

Похожие работы