Бесплатный автореферат и диссертация по биологии на тему
Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей
ВАК РФ 03.00.03, Молекулярная биология

Автореферат диссертации по теме "Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей"

На правах рукописи

003054447

Низоленко Лилия Филипповна

БАНК ОБРАЗОВ БЕЛКОВЫХ СЕМЕЙСТВ РГ*ОР_РАТ ДЛЯ БЫСТРОЙ ИДЕНТИФИКАЦИИ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

03.00.03 - «молекулярная биология»

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата биологических наук

Кольцово - 2007

003054447

Работа выполнена в ФГУН Государственный научный центр вирусологии и биотехнологии «Вектор» Роспотребнадзора Минздравсоцразвития России.

Научный руководитель

кандидат физико-математических наук А.Г. Бачинский

Официальные оппоненты

доктор биологических наук, профессор С.Н. Щелкунов кандидат биологических наук Д. А. Афонников

Ведущая организация

Факультет биоинженерии и биоинфроматики Московского государственного университета им. М.В.Ломоносова

Защита состоится «16» марта 2007 г. » часов на заседании

диссертационного совета при ФГУН ГНЦ ВБ «Вектор» по адресу: ГНЦ ВБ «Вектор», Кольцово Новосибирской области, 630559, тел. (8-383) 336-74-28, Е.таП: chaldina@vector.nsc.ru

С диссертацией можно ознакомиться в библиотеке Государственного научного центра вирусологии и биотехнологии «Вектор».

Автореферат разослан « 1 » февраля 2007 г.

Ученый секретарь диссертационного совета

Э.Г. Малыгин

Актуальность проблемы

В настоящее время секвенирование новых нуклеотидных последовательностей и считывание с них информации о белках стало рутинной процедурой, и способы быстрого и достоверного описания структурных и функциональных особенностей также как родственных связей новых последовательностей* оказываются определяющим фактором многих исследований. Наиболее распространенным способом такого описания до сих пор остается сравнение новых последовательностей с последовательностями, описанными ранее. Сравнение может проводиться напрямую с банками первичных последовательностей, такими как GenBank, EMBL, PIR- PSD, Swiss-Prot.. Однако гораздо удобнее и информативнее исследование с помощью «вторичных» банков данных или «банков данных второго поколения», в которых сконцентрирована информация о целых группах (семействах) родственных белков, наиболее характерных и часто уникальных особенностях именно этой группы. Помимо выигрыша в скорости, которая перестаёт бйггь лимитирующим фактором после появления мощных суперкомпьютеров, часто только сравнение с «вторичными» базами может выявить достаточно отдалённое родство или сходство на уровне доменов, поскольку проводится поиск именно локальной гомологии с короткими, наиболее консервативными участками последовательностей. Доказательством всеобщего признания именно такого способа анализа новых последовательностей может служить большое количество и разнообразие «вторичных» баз данных. В последние годы активно развиваются методы сравнения трёхмерных структур для предсказания родственных связей и функции белков. Это более прогрессивный и биологически значимый подход. Однако, число предсказанных, а тем более, экспериментально подтверждённых структур в сотни раз меньше, чем известных последовательностей белков. «Банки данных второго поколения» ещё долго будут служить главным инструментом при аннотировании вновь секвенируемых геномов, а проблема их развития и совершенствования оставаться актуальной.

Цель

Целью данной работы являлось создание банка образов белковых семейств, обеспечивающего высокие чувствительность, специфичность и скорость анализа, а также методов его поддержания и обновления.

* Далее в тексте предсказание функциональных особенностей и родственных связей белков, кодируемых новыми последовательностями, для краткости будем называть идентификацией аминокислотных последовательностей.

Научная новизна и практическая пеиность.

1) Создан уникальный банк образов белковых семейств, содержащий максимально возможное число объединённых в группы родственных белков базы UniProt. Банк является одним из первых в мире, а также первым и единственным в России банком «второго поколения».

2) Сравнение Prof_Pat с другими «вторичными» банками показало, что по чувствительности, специфичности и скорости обработки данных он, по крайней мере, не уступает, а, часто, и превосходит все доступные: ресурсы такого рода.

3) С помощью банка ProfPat проанализированы последовательности открытых рамок трансляции полного генома штамма H37Rv Mycohicterium tuberculosis. Для 44 открытых рамок впервые предсказана функция кодируемого бежа.

4) С высокой степенью достоверности произведена идентификация более четырнадцати тысяч ранее не описанных последовательностей гиготетических белков и открытых рамок трансляции базы UniProt. Тем самым подтверждена целесообразность использования банка Pro f_Pat для описания вновь секвенированных последовательностей при создании и обновлении баз первичных последовательностей белков.

Публикации

По теме диссертации опубликовано 7 статей (пп. 1-7 списка литературы).

Апробапия работы

Банк Prof Pat, результаты его исследования и применения представлялись:

1) как самостоятельные работы на Международном симпозиуме по теоретическим и компьютерным методам исследования генома (Гейдельберг 1996), Международной конференции "Оценка спонсируемых биологических исследований в России в новом , тысячелетии" (Новосибирск 1999), Первом международном рабочем совещании "Биоразнообразие и динамика экосистем Северной Евразии: информационные технологии и моделирование" (Новосибирск 2001}, Международных конференциях по биоинформатике регуляции и структуры генома - BGRS (Новосибирск 2000,2002, 2004,2006), Международной московской конференции по компьютерной молекулярной биологии —МССМВ'ОЗ (Москва 2003);

2) как часть разработок ГНЦ ВБ "Вектор" на Рабочие совещаниях "Развитие партнёрства с Россией" (Бостон 2001, Москва 2001);

3) обсуждались на семинарах Института молекулярной биологии ГНЦ ВБ «Вектор».

Получено свидетельство об официальной регистрации банка Федеральной службой по интеллектуальной собственности Российской Федерации № 2005620050.

Структура работы

Работа состоит из введения, шести глав, заключения, выводов и списка литературы (165 наименований). Материал изложен на 127 страницах, содержит 23 рисунка и 16 таблиц.

Содержание работы Глава 1. Анализ аминокислотных последовательностей для предсказания родственных связен, структурных и функциональных особенностей кодируемых ими белков (Обзор литературы)

Обзор литературы посвящён описанию подходов к анализу аминокислотных последовательностей для предсказания их родственных связей и функций кодируемых белков, проблем, связанных с поиском отдалённой гомологии и особенностей наиболее широко известных из существующих баз данных и программных продуктов, созданных дая решения этих проблем.

Глава 2. Построение банка образов белковых семейств Prof Pat и принципы работы с ним

Банк ProfPat строится на основе базы данных UniProt, объединяющей банки данных первичных аминокислотных последовательностей Swiss-Prot, TrEMBL и P1R. Единицей банка являйся образ (паттерн). Образы банка ProfPat формируются на основе групп выровненных родственных аминокислотных последовательностей (ГРП), не являющихся фрагментами того или иного белка и имеющих взаимное сходство, определяемое программой CLUSTALV (Higgins et al,. 1992), не менее 30%. Количество членов группы не может быть меньше 3.

Файлы, содержащие результаты выравнивания, дополняются двумя записями: DE -название семейства белков и КW - ключевые слова (в основном, объединение значений поля KW для белков вошедших в выборку).

Образом называется упорядоченная совокупность неперекрывающихся мотивов вида r:Aj-А2-А3-...-Ап, где г - номер позиции выровненной группы белков, в которой начинается мотив, Л_ - множество аминокислот, присутствующих в r+i-1-й позиции выровненных белков. Для неактивной позиции А. = X: допустимы любые аминокислоты. Мотивы представляются вырожденными словами типа K-[D,E]-F-C-X-[A,S,T]-X-[M,N,D] и

оцениваются по частоте встречаемости входящих в них аминокислот в белках. Чем меньше разнообразие аминокислот в позициях мотива и чем меньше частота встречаемости этих аминокислот в белках, тем меньше вероятность обнаружить этот мотив «в случайном белке», т.е. тем выше его специфичность в характеризации именно белков данной группы. Для образа выбирается совокупность не менее трёх наиболее специфичных мотивов (Рис.1).

Основной алгоритм сравнения аминокиелотнпх последовательностей с банком образов ProfPat использует конечный автомат Ахо-Корасика (Aho A.V., Corasic M.J., 1975). Алгоритм реализован в виде компьютерной программы поиска гомологии рр сотр для IBM PC совместимых компьютеров под управлением Windows 2000/ХР. Алгоритм разработан в Институте Математики СО РАН группой В.Д. Гусева и практически реализован Л.А. Мирошниченко и A.A. Ярыгиным (ГНЦ ВБ «Вектор»).

Банк существует в полной сетевой и локальной редуцированной версиях. Редукция банка состоит в ограничении числа мотивов в каждом паттерне пятью лучшими. Это несколько ускоряет процедуру сравнения и снижает объём банка.

Банк доступен по адресу http://wwwmgs.bione1 .nsc.ru/mgs/programs/prof pat/ и через ftp.bionet.nsc.ra/pub/biologv/vector/prof pat и ftp.ebi.ac.uk/pub/databases/prof pat.

2)G-D-fFYl-I-E-A-fETVl-G-E-I ......>

■ i ■ ¡i < vGtDqVEFeAPVyÀGDYIEAvGEIvkVGKTSRKMvFEÀRKVIV cAÏDnVEFlAPVpÀGDYIEAvGEÏthV^K'TSRKMkFEÀRKVIr kAjmsVEFmAPV^œFIEAeGEÎvnVGK'SSRKMiFE^RKVIv kAtosVEFmAPVFAGDYIEAeGEÍvnV(3t;'SSRKMvFEARKVIv rA^sVEFlAPVjirÍGDFIEAtGE±veVbK'TSRKMvFEÁKKVIa

Рисунок 1. Выбор мотивов образа.

Шрифтом выделены инвариантные позиции, строчными буквами - позиции, в которых произошли неконсервативные замены. Они включаются в мотивы, если соседствуют только с инвариантными позициями. При выборе межну позициями, равнозначными по степени консервативности, в мотив включается позиция, содержащая более редкие аминокислоты. В данном примере это I (lie - частота встречаемости в белках базы Swiss-Prot - 0.0546) против A (Ala - 0.0773) в мотиве 2, а также Е (Glu - 0.0628) против V (Val -0.0655) и G (Gly - 0.0719) против A (Ala - 0.0773) в истине 3._

Q3C5I0 Q7MVJ4 Q7P5H8 Q8RHX1 Q8RBU1

Глава 3 Обновление и поддержка банка Prof Pat

Банк Prof_Pat обновляется в полуавтоматическом режиме по мере появления новых выпусков порождающего банка UniProt. В Таблице 1 представлена динамика развития банка.

Этапы обновления:

1) Из банка Prof_Pat исключаются последовательности, удаленные из очередной версии банка UniProt, замещаются последовательности, измененные в новом выпуске порождающих банков, а также изменяется описание групп родственных последовательностей, для членов которых изменилась аннотация.

2) Последовательности, не вошедшие ранее в банк ProfPat, сравниваются с образами банка, и проводится дополнение существующих групп родственных последовательностей за счёт новых последовательностей, имеющих с последовательностями дшшой ГРП не менее чем 30% сходство.

3) Наконец, оставшиеся последовательности сравниваются между собой, с целью формирования новых ГРП и построения образов для них.

Таблица 1.

Динамика развития банка Prof_Pat.

ProfPat Выпуск/Дата Swiss-Prot /TrEMBL Выпуск Последовательностей в Swiss-Prot /Trembl Последовательностей в Prof Pat Групп родственных белков

1.1 1998-99 33/1 -98000 52122 7083

1.3 Фев. 2000 38/11 -100000 -13000

1.6 Окт. 2000 39/15 295932 166667 24692

1.7 Апр. 2001 39/16 320511 181644 27187

1.8 Нояб. 2001 40/17,18 385437 217360 31613

1.9 Март 2002 40/19 424908 248677 35917

1.10 Май 2002 40/20 475343 283765 41076

1.11 Янв. 2003 40/21,22 556538 344429 50149

1.12 Май 2003 41/23 634179 397627 57179

1.13 Нояб. 2003 41/24 726011 462329 65331

1.14 Янв. 2004 42/25 784262 509506 71619

1.15 Июль 2004 43/26 831591 530025 73937

1.16 Дек. 2004 44/27 1010596 676485 90506

1.17 Июль 2005 46/29* 1219335 822781 106725

1.18 Апр. 2006 48/31 1634672 1084331 138787

* Первый выпуск банков Б'отзз-Рго! и ТгЕМВЬ в виде законченной объединённой версии

UniProt.

Глава 4. Анализ некоторых особенностей банка Prof Pat.

В данной главе описан способ отделения значимых результатов анализа аминокислотных последовательностей от случайного сходства, проведен о сравнение чувствительности и специфичности банка при разных параметрах поиска, а также дана оценка числа реальных белковых семейств, представленных в ProfPat.

Разделение случайного и значимого сходства

Аминокислотные последовательности для анализа и разделения случайного и значимого сходства были взяты из файла банка UniPrat (Swiss-Prot) на сервере Европейского института биоинформатики (файл uniprot_sprot.dat.gz сентябрь 2006). При этом отбирались АКП, включённые в UniProt в 2006 году не входившее в банк Prof Pat Последовательности сравнивали с выпуском 1.18 банка Prof_Pat. Все случаи сходства разделялись на "положительные" (если слова поля DE образа - описание белков семейства принадлежали множеству слов поля DE записи для данной последовательности в банке Swiss-Prot или наоборот) и "ложноположительные" (в остальных случаях).

Лучшие результаты определялись по параметру Score, который приводится в протоколе сравнения. Этот параметр представляет (дазой отрицательный десятичный логарифм вероятности того, что обнаруженное сходство последовательности с образом является случайным. Он учитывает длину белка, чисго мотивов в образе, задаваемый уровень сходства и зависит от используемой матрицы сходства.

Поскольку параметр Score очень сильно зависит как от числа мотивов в образе, так и от числа мотивов, опознающих изучаемую последовательность, для сравнения результатов поиска между собой использовались следующие величины: S„ = Score/n и Sm = Score/m, где n - общее число мотивов в образе, гг. - число мотивов, обнаруживших сходство. Для каждого класса строилось распределение частот этих величин (Рис. 2).

Распределения, характеризующие "положительное" и "ложноположительное" сходство, заметно различаются. Это дает основание тому, чтобы задавать некоторые параметры и отличать большую часть ложноположительных результатов от положительных. Такими параметрами могут быть S„ 3, при этом теряется только 5% "положительных" случаев сходства, но отсекается более 70% "ложноположительных", или Sm > 7, для которого теряются 10% "положительных", но отсекаются более 70% "ложноположительных" случаев сходства.

(а)

Распределение частот показателя Бп полная версия банка РгоЦ>а1

------- Ложноположительные —■— Положительные

(б)

Распределение частот показателя Бт полная версия банка Рго1_Ра1

-♦ - Ложноположжельные —■—Положительные

Рисунок 2. Распределение частот параметров^ (а) и 8т(б). Позволяет вводить пороговые значения й 3 или 8т 2 7 для разделения случайного и значимого сходства.

Сравнение чувствительности и специфичности банка РгоГРа! при разных параметрах поиска

Пользователь может задавать разные параметры сравнения тестируемой последовательности с банком Рго^Ра! - уровень отбора (желаемую долю или конкретное минимальное число мотивов образа, при опознании которыми последовательность может считаться родственной семейству РгоГРа!), уровень сходства мотива с тестируемой последовательностью и матрицу близости аминокислот. Для сравнения чувствительности и специфичности банка в зависимости от задаваемых условий, те же последовательности анализировались с использованием разных матриц бшзости семейств РАМ и Ыо.чиш, различных уровнях отбора, а также использовались для сравнения полной и редуцированной версий банка.

Показано, что матрица 250РАМ обладает наибольшей чувствительностью (число последовательностей, с которыми сходство не обнар)жено при ей использовании минимально). В то же время матрица 100РАМ немного превосходит другие по специфичности (соотношение положительных и ложпоположительных результатов), но уступает по чувствительности.

Сравнение полной и редуцированной версий банка показывает, что независимо от использованной матрицы близости, редуцированная версия несколько уступает полной по чувствительности. Однако специфичность у полной и редуцированной версий практически одинаковая. Таким образом, редуцированная локальная версия вполне может использоваться вместо полной. Критерии разделения случайного и значимого сходства при этом остаются теми же - Бщ & 7 и 8„ > 3.

Уровень отбора (желаемая доля мотивов образа, при опознании которыми последовательность считается родственной семейству Рго^РаЦ может задаваться двумя способами: числом от 1 до 10 либо от 11 до 100. В первом случае он означает конкретное минимальное число мотивов образа, опознающих последовательность, во втором - долю таких мотивов в процентах. Во всех описанных в данном разделе случаях анализа уровень отбора был равен 2. Простое повышение этого уровнт до 3 вызывает заметное ухудшение чувствительности анализа с 91% до 85%, причём отрицательно сказывается на всех видах сходства, то есть, не приводит к повышению специфичности. Однако, учитывая, что образы РгоГ_Ра1 иногда состоят из нескольких сотен мотивов, и для таких образов уровень отбора равный 2 выглядит слишком низким, можно рекомендовать использование процентного выражения этого критерия, особенно при исследовании АКП большой длины. Результаты анализа при уровнях отбора 2 (интервала) и 15 (% интервалов) почти це различаются.

Количественная оценка чувствительности и специфичности банка РгоГ_Ра1

Поскольку выяснилось, что в описаниях последовательностей в базах данных встречаются неточности и разночтения, для количественной оценки чувствительности и специфичности полной версии банка РгоУОД из новых АКП Зхим^РкЛ были выбраны только последовательности, имеющие в описании ЕС-индекс, то есть, кодирующие ферменты как наиболее точно описанные АКП. Для сравнения использовали матрицу 250РАМ, уровень отбора 2 и минимальный уровень сходства 90%. Из 3670 последовательностей неопознанными остались 81. Соответственно, из 3589 последовательностей, идентифицированных банком, 26 результатов оказались ложноположительными. Таким образом, чувствительность банка можно оценить как 97.8%, специфичность - 99.3%.

Если рассматривать при оценке только те результаты сравнения, для которых выполняются условия £„> 3 и 8„ > 7, а последовательности, для которых они не выполняются считать неопознанными, из 3670 последовательностей неопознанными остаются 190. Из оставшихся 3480 результатов 15 оказываются ложноположительными. Таким образом, при уровне сходства 90% и соблюдении пороговых условий, обеспечивающих высокую достоверность результатов, чувствительность банка оказывается 94.8%, а специфичность достигает 99.6%.

Оценка числа реальных белковых семейств, представленны* в РгоСРа!

Следует отметить, что отдельный образ банка РгоГ_Ра1 не всегда полностью описывает какое-то семейство. Ограничения, введённые в банке для большей достоверности результатов сравнения и качества выравнивания (не менее трёх последовательностей, имеющих > 30% сходство в группе и не менее трёх мотивов-элементов для каждого образа) иногда приводят к тому, что семейства разбиваются на две или более подгрупп белков. Для практического исследования это не имеет особого значения, поскольку, если новая последовательность распознаётся хотя бы одним из образов семейства, она с большой вероятностью именно к этому семейству и относится. Тем не менее, такое разбиение может привести к завышенной оценке полноты самого банка, а в дальнейшем, по мере его роста, к абсурдным выводам, что число семейств банка Рго<^Ра1 больше, чем общее число существующих в природе семейств белков. Поэтому для версии РгоГРа! 1.18, включающей в себя 138787 ГРП была проведена оценка вероятного числа реальных белковых семейств, входящих в банк.

Пары групп родственных последовательностей, содержащихся в РгоГ_Ра1 выбирались случайным образом и сравнивались между собой. Если хотя бы по одной последовательности го двух ГРП при сравнении программой СЬШТАЬУ имели сходство > 30%, эти группы рассматривались как члены одного семейства, и результат сравнения считался положительным. В таком случае одна группа из пары сравнивалась уже со всеми ГРП банка, чтобы выявить всю "цепочку" групп, относящихся к одному семейству. Отобрав как можно больше таких цепочек, можно определить значение среднего числа групп в семействе, а также оценить вероятность того, что две случайно выбранные группы окажутся членами одного семейства.

Пусть реально есть N групп родственных белков, М семейств, при этом А из них содержат по одной группе и М-А - по две и более. Среднее число групп в одном таком семействе:

(№А)/(М-А)=Ч. (1)

Сравнив все группы друг с другом (Ы * (М-1)/2 сравнений), мы должны получить примерно

2

положительных результатов. Следовательно, если сл;/чайиым образом выбрать пару ГРП из всех, имеющихся в банке, вероятность того, что об; они окажутся членами одного семейства можно оценить как

(А>-А){д-\)^(И-А){д-\) N{N-1) ЛГ2

тогда

М = + А (3)

Я

Таким образом, получаем оценку реального числа семейств в банке:

М = ^(д-рМ). (4)

Я

По этой формуле значение числа реальных семейств в банке оценивается как М=98000± 10000.

Насколько адекватна такая оценка общего числа семейств в банке7 Число генов, кодирующих белки, в геноме человека оценивается в 30-40 тысяч. Можно, соответственно, предположить, что число семейств белков всех многоклеточных животных также не превышает 40 тысяч. Число генов в геномах растений достигает 55

тысяч. У растений кроме генов, общих с животными, имеется значительное число генов, специфичных только (или, по крайней мере, преимущественно) для них. Таким образом, можем добавить к общему разнообразию 15-20 тысяч семейств. Неожиданно сложными оказались геномы одноклеточных эукариотов. Так в недавно сехвенированном геноме ТеШИутепа ЖегторИПа обнаружено более 27 тысяч генов, и только для двух тысяч из них выявлены ортологи в геноме человека. Наконец, вирусы и бактерии, могут добавить к общему числу ещё несколько тысяч семейств. Таким образом, получаем 80-90 тысяч белковых семейств. Такая оценка вполне согласуется с результатом, полученным для банка РгоОМ, в котором содержатся АКП белков самых разных организмов - от вирусов и бактерий до млекопитающих и человека, а также позволяет предположить, что в банке представлены практически все известные к настоящему времени семейства белков.

Глава 5 Сравнение с существующими банками

РгоГ_Ра1 - один из первых в мире «вторичных» банков данных. Однако сравнение с другими базами данных показывают, что он не только не уступает более поздним аналогам, но в некоторых аспектах превосходит их.

Сравнение проводилось двумя различными способами:

1) Для оценки полноты данных, скорости, чувствительности и специфичности анализа аминокислотных последовательностей из файла сштщ1а11уе_с1а1 (06.03.2003) базы ТгЕМВЬ произвольным образом выбиралось 20 последовательностей, принадлежащих к самым разным таксономическим группам - от вирусов до человека. Единственное условие отбора - отсутствие какого-либо развернутого описания предполагаемой функции данного белка. Полученный набор последовательностей анализировался через Интернет в интерактивном режиме девятью известными «вторичными» банками, включая Рго^Ра! Оценивалось время работы и число положительных результатов поиска, когда последовательность опознавалась каким-либо семейством (группой, паттерном) соответствующего банка. Параметры сравнения выбирались стандартные, то есть те, которые предлагали создатели банков. Основные результаты сравнения, представлены в Таблице 2. В частности, показано, что при использовании банка РгоГРа! результат можно получить значительно (в 3-10 раз) быстрее, чем для большинства аналогичных банков. С одной стороны, это объясняется тем, что он может обработать за один сеанс сколь угодно большой набор (при необходимости десятки и сотни тысяч), а не единственную последовательность, и, поскольку загрузка данных и считывание результатов - процесс однократный, он меньше зависит от скорости прохождения данных, чем в случае других

банков. С другой стороны, не последнюю роль здесь играет и очень быстрый алгоритм поиска.

Можно возразить, что при работе через Интернет, оценивается скорее эффективность работы каналов, чем банков данных. Поэтому сравнивалась также скорость анализа баз данных, установленных на одном и том же локальном компьютере. В первую очередь нас интересовал ресурс ЬИегрго, поскольку, во-первых, он объединяет в себе множество баз данных, а во-вторых, так же как Ргс'("_Ра1 может работать с группами последовательностей. Для сравнения реальной скорости счета локальные версии банков РгоГРаС и ШегРго были установлены на одном компьютере, и выяснилось, что на обработку 20 последовательностей Рго1"_Ра1 затрачивает почти в 100 раз меньше времени Что касается чувствительности, то по этому параметру банки примерно одинаковы.

Таблица 2

Сравнение полноты и чувствительности известных «вторичных» банков данных.

Название банка Выпуск, дата Число членов (паттернов образов семейств) Число мотивов Врем* поиска (мин.) Положительных результатов Источник информации о банке

Prof_Pat 1.12 Май 2003 57179 837128 (0.21; 2-u) 17(19") http://wwwmgs.bionet. nsc.ru/mgs/programs/pr of pat/

PROSITE 17.46 Май 2003 1187 1625 25 20 http://www.expasy.ch/p rosite/

PFAM 8.0, Фев. 2003 5193 40 18 http://www.sanger.ac.u k/Pfam/

InterPro 6.1 Апр. 2003 7785 55-60 (153') 19 http://www.ebi.ae.uk/in terpro/

BLOCKS 13.0, Авг. 2001 2101 8656 3040 19(17') http://b!ocks.fhcrc.org/b locks/

SBASE 9, Окт. 2002 5257 30 19 http://hydraicgeb.triest e.it/~kristian/SBASE

TIGRFAMs 2.0, Фев. 2002 1415 120 19 http://www.tigr.org/TI GRFAMs/

EMOTIFS 2001 15893 70297 20 13 http://motif.stanford.ed u/identify

IproClass 2.22, Май 2003 >36200 PIR суперсем., 145300 семейств 40 19 http://pir.georgetown.ed u/iproclass/

Время поиска для версии банка, установленной на локальном компьютере с тактовой

частотой 800 МГц, 512 RAM.

Результаты сравнения при уровне сходства 70%.

Последовательности, распознаваемые не менее чем половиной блоков семейства.

2) Чтобы оценить полноту данных, представленных в банке ProfJPat, сравнивали его с одним из самых крупных и современных банков Interpro, который объединяет в себе базы UniProt, PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIR Superfamily (PIRSF), Superfamily (Mulder et al. 2003).

Для сравнения использовали 14 выпуск ProfPat (см. Таблицу 1) и 1153215 последовательностей Swiss-Prot (вьшуск 42) и TrEMBL (выпуск 25). Все последовательности Swiss-Prot и TrEMBL были разделены на 2 группы: последовательности, имеющие в описании ссылку на Interpro, и последовательности, таковой не имеющие. Далее эти 2 группы сравнивали с банком ProfJPat отдельно.

Результаты этого сравнения суммированы в Таблице 3. Идентификаторы 572149 последовательностей первой группы уже присутствовали в файлах ProfJPat, что означает, что они заведомо опознаются этими образами. Оставшиеся 348249 последовательностей сравнивали с банком с помощью программы рр_сотр. При уровне сходства 70 % неопознанными остались только 4 из них, причём все ни достаточно короткие (55-69 аминокислотных остатков), а 2 из них к тому же являются гипотетическими белками.

Таблица 3

Сравнение распознающей способности банков Prof_Pat и Interpro.

Swiss-Prot (вьшуск 42) и TrEMBL (вьшуск 25) Всего последовательностей 1 153 215

Последовательностей, имеющих ссылку па Interpro 920 402

Опознано банком Prof Pat в Опознано программой Не опознано банком

процессе формирования 14 выпуска банка Prof Pat и вошло в банк. ррсошр ProfPat

572 149 348 249 4

Последовательностей, не имеющих ссылки на Interpro 232 813

Последовательностей, не имеющих Опознано хорошо Опознано хорошо

детального описания в Swiss-Prot описанными ГРП банка описанными ГРП банка

/TrEMBL ProfJPat Prof Pat с параметром Score/п > 3

113 452 15 440 14 185

Среди последовательностей второй группы нас в первую очередь интересовали те, которые не имеют не только ссылки на Interpro, но и любого другого детального описания кроме "Hypothetical protein" или "ORF" с номером, то есть никем ранее не описанные. Таких последовательностей оказалось 113452. При уровне сходства 90% 43041 из них опознаются тем или иным образом банка Prof_Pat. Однако ряд ГРП банка ProfJPat также имеет описание подобного рода, если они состоят из неописанных или гипотетических

белков. Опознание неизвестной последовательности таким образом ничего не говорит нам о ней, кроме наличия в банке родственных последовательностей. Поэтому положительным результатом считалось только опознание последовательности ГРП, содержащей в поле DE слова или фразы отличающиеся от приведённых. При уровне сходства 90 % такими образами опознано 15440 последовательностей. 14185 из них при опознании демонстрировали высокое значения параметра Score, что в свою очередь говорит о высоком уровне значимости и достоверности полученных результатов.

Глава 6. Примеры использования банка Prof Pat

Банк ProfPat можно использовать для предскЕзания функций белка, кодируемого новой аминокислотной последовательностью. Однако, хотя точность этого предсказания не уступает точности других банков, описания ГРП Prof Pat всё же являются довольно краткими. Поэтому для каждой отдельной последовательности такое предсказание оказывается лишь первым, хотя и необходимым, этапом исследования.

Преимуществом банка Prof_Pat является очень быстрый алгоритм сравнения, а также возможность работать со сколь угодно большими группами последовательностей за один проход. Это делает целесообразным его использование для предварительной сортировки открытых рамок трансляции (ОРТ) больших фрагментов геномов - полных геномов прокариот и участков либо целых хромосом эукариот.

Например, с использованием Prof_Pat выпуска 1.16 исследовано 3924 аминокислотных последовательности открытых рамс к трансляции Mycobacterium tuberculosis штамма H37Rv. 3922 из них опознаются хотя бы одним элементом образа банка Prof Pat, однако условию S„> 3 удовлетворяют только 2821. Для 2772 последовательностей подтверждено сходство с соответствующими их описанию семействами Prof_Pat. 44 ОРТ М. tuberculosis, дня которых ранее не выявлено сходства с какими-либо известными белками кроме гипотетических, опознаются образами белковых семейств Prof_Pat, включающими белки с установленной или хотя бы предполагаемой функцией. Для 35 из этих последовательностей, обнаруженное сходство подтверждается также и другими "вторичными" базами данных, в частности Interpro. Результаты BLAST-сравнения с базами NCBI - National Center for Bioteclmology Information (http://www.ncbi.nlm.nih.gov/COG/old/ ) подтверждают наличие сходства с соответствующилш белками ещё для 7 ОРТ из этого списка.

Другой областью применения банка Prof Pat может быть описание новых или ещё не идентифицировашак АКП при обновлении баз первичных последовательностей белков. Как показано в Главе 5, семейства банка PrcfPat опознают практически все

АКП, распознаваемые базами консорциума Interpro. В то же время, количество последовательностей, с высокой достоверностью идентифицируемых хорошо описанными ГРП банка ProfPat, но не имеющих ссылок на другие аналогичные базы исчисляется тысячами и десятками тысяч.

Выводы.

1. На основе банка UniProt создан «вторичный» банк образов белковых семейств Prof_Pat для быстрой идентификации новых аминокислотных последовательностей, поиска как значительного, так и отдалённого сходства с известными белковыми семействами с целью предсказания функций белков, кодируемых вновь расшифрованными аминокислотными последовательностями.

2. При анализе 3670 новых, не входивших в Prof_Pat последовательностей базы UniProt кодирующих ферменты, показано, что при уровне сходства 90% и соблюдении пороговых условий, обеспечивающих достоверность результатов, чувствительность банка ProfJ'at составляет 94.8%, а специфичность достигает 99.6%.

3. Показано, что ProfPat по скорости сравнения во много раз превосходит все известные "вторичные" банки. По чувствительности и специфичности банк Prof Pat не уступает существующим аналогам, и во многих случаях способен распознавать последовательности, не опознанные другими базами данных.

4. С помощью банка Prof Pat проанализированы последовательности открытых рамок трансляции (ОРТ) полного генома штамма H37Rv Mycobacterium tuberculosis. Из 3924 последовательностей 3922 опознаются хотя бы одним элементом образа банка Prof Pat. Для 44 ОРТ возможная функция кодируемого белка предсказана впервые.

5. С высокой степенью достоверности произведена идентификация более 14000 ранее не описанных последовательностей гипотетических белков и открытых рамок трансляции базы UniProt. В то же время, показано, что из почти миллиона последовательностей банка UniProt, имеющих ссылку на ресурс Interpro, банком Prof_Pat не опознаются только четыре.

Список работ, опубликованных по теме диссертации

1. Бачинский А.Г., Ярыгин А.А., Гусев В.Д., Наумочкин А.Н., Немытикова Л.А., Низоленко Л.Ф., Куличков В.А. Новая версия банка образов белковых семейств PROFJPAT 1.0: технология формирования и программы быстрого поиска.// Молекулярная. Биология, 1996, 30, 1409-1419.

2. Бачинский А.Г., Ярыгин А.А., Наумочкин А.Н., Низоленко Л .Ф., Куличков В.А..

Сетевая версия банка образов белковых семейств PROF_PAT 1.1// Молекулярная Биология, 1999, т.ЗЗ, №.5, с.873-880

3. Низоленко Л. Ф., Бачинский А. Г., Наумочкин А. Н , Ярыгин А. А., Григорович Д. А. Банк образов белковых семейств PROF_PAT, оценка эффективности.// Молекуляр. Биология, 2004,38,256-264.

. 4. Низоленко Л. Ф., Кожина Е. М., Ярыгин А. А., Бачинский А. Г., Исследование

аминокислотных последовательностей открытых рамок трансляции полного генома Mycobacterium tuberculosis с использованием банка образов белковых семейств ProfPat.// Биофизика, 2005, 50, 986-992.

5. Bachinsky A.G., Yarigin А.А., Guseva Е.Н., Kulichkov V.A., Nizolenko L.Ph. A bank of protein family patterns for rapid identification of possible functions of amino acid sequences.// Comput. Applic, Biosci. 1997. V. 13. P. 115-122.

6. Bachinsky A.G., Frolov A.N., Naumochkin A. N., Nizalenko L. Ph., Yarigin A. A. PROFPAT 1.3: updated database of patterns used to detect local similarities.// Bioinformatics. 2000. 16,358-366.

7. Nizolenko L. Ph., Bachinsky A.G., Naumochkin A.N., Yarigin A.A., Grigorovich D.A. Database of patterns PROFPAT for detecting local similarities// In Silico Biology, 2003,3, 205-213.

8. Bachinsky A.G., Grigorovich D.A., Naumochkin A.N, Nizolenko L.Ph., Yarigin A.A. "Database of patterns PROF_PAT, used to detect local similarities." Proceedings of the second international conference on bioinformatics of genome regulation and structure (Novosibirsk, Russia 7-11 august 2000) v.2, pp. 181-183.

9. Nizolenko L.Ph.., Kozhina E.M., Yarigin A.A., Bachinsky A.G. "Investigation of the amino acid sequences of Mycobacterium tuberculosis complete genome with protein family patterns bank PROF_PAT 1.3." Proceedings of the second international conference on bioinformatics of genome regulation and structure (Novosibirsk, Russia 7-11 august 2000) v.2, pp. 194-196.

10. Nizolenko L.Ph., Bachinsky A.G., Yarigin A.A., Naumochkin A.N. "Protein family patterns bank PROF_PAT is worthwhile rival to world-known "secondary" banks." Proceeding of the third international ccinferencence on bioinformatic s of genome regulation and structure. (BGRS), Novosibirsk, Russia, July 14-20 2002, Vol.3, pp. 184-186.

11. Nizolenko L.Ph., Bachinsky A.G., Yarygin A.A., Naumochkin A.N., Grigorovich D.A. "Database of patterns for detecting local similarities PROF_PAT in 2003." Proceeding of the International Moscow Conference on Computational Molecular Biology 22-25 Jul. 2003 ppl64-165

12. Nizolenko L.Ph., Bachinsky A.G., Yarygin A.A., Naumochkin A.N., Grigorovich D.A. "Protein family patterns bank PROF_PAT. Current status." Proceeding of the forth international conference on bioinformatics of genome regulation and structure. (BGRS), Novosibirsk, Russia, July 25-30 2004, Vol.1, pp 323-325.

13. Nizolenko L.Ph., Bachinsky A.G., Yarygin A.A., Naumochkin A.N., Grigorovich D.A. "Database of patterns for detecting local similarities PROFPAT in 2005." Proceeding of the International Moscow Conference on Computational Molecular Biology (MCCMB), 18-21 Jul. 2005 pp.253-255.

14. Nizolenko L.Ph., Bachinsky A.G., Yarygin A.A., Naumochkin A.N., Grigorovich D.A. "PROFPAT: the updated database of protein family patterns. Current status."Proceeding of the fifth international conference on bioinformatics of genome regulation and structure. (BGRS), Novosibirsk, Russia, July 16-22 2006, Vol.1, pp 299-301.

БАНК ОБРАЗОВ БЕЛКОВЫХ СЕМЕЙСТВ РРОР_РАТ

ДЛЯ БЫСТРОЙ ИДЕНТИФИКАЦИИ

АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Автореф. дисс. на соискание учёной степени кандидата биологических наук. Подписано в печать 23.01.2007. Заказ № 10. Формат 60x90/16. Усл. печ. л. 1. Тираж 100 экз. Типография Института катализа им. Г.К. Борескова СО РАН

Низоленко Л.Ф.

Низоленко Лилия Филипповна

Содержание диссертации, кандидата биологических наук, Низоленко, Лилия Филипповна

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДЛЯ ПРЕДСКАЗАНИЯ РОДСТВЕННЫХ СВЯЗЕЙ, СТРУКТУРНЫХ И ФУНКЦИОНАЛЬНЫХ ОСОБЕННОСТЕЙ КОДИРУЕМЫХ ИМИ БЕЛКОВ (обзор литературы).

1.1 Предсказание функции, структуры и родственных связей белка по его аминокислотной последовательности: основные проблемы.

1 2 Методы анализа аминокислотных последовательностей и реализующие их программные продукты.

12 1. Прямое сравнение последовательностей

1.2 2. «Вторичные» базы данных.

12.2.1. Базы данных профилей.

1 2 2 2 Базы данных одною мошва.

1 2 2 3. Базы данных множественных мотивов.

1 224 SBASE

1 2 3 Интегрированные базы данных.

1 3 Методы предсказания функции, основанные на структурных данных

ГЛАВА 2. ПОСТРОЕНИЕ БАНКА ОБРАЗОВ БЕЛКОВЫХ СЕМЕЙСТВ

PROF PAT И ПРИНЦИПЫ РАБОТЫ С НИМ.

2 1 Формирование и выравнивание групп родственных белков.

2 2 Формирование образов белковых семейств.

2 3 Сравнение аминокислотных последовательностей с образами.

2 4 Сравнение образов с банком Swiss-Prot.

2 5 Программное обеспечение

2 6 Сетевая версия

2 7 Ввод данных и представление результатов.

ГЛАВА 3. ОБНОВЛЕНИЕ И ПОДДЕРЖКА БАНКА PROFPAT.

ГЛАВА 4. АНАЛИЗ НЕКОТОРЫХ ОСОБЕННОСТЕЙ БАНКА PROFPAT

4 1 Разделение случайного и значимого сходства

4 2 Сравнение чувствительности и специфичности банка Prof Pat при разных параметрах поиска.

4.3 Количественная оценка чувствительности и специфичности банка ProfPat

4 4 Оценка числа белковых семейств, представленных в Prof Pat

ГЛАВА 5. СРАВНЕНИЕ С ДРУГИМИ «ВТОРИЧНЫМИ» БАЗАМИ ДАННЫХ.

ГЛАВА 6. ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ PROFPAT

6 1 Использование банка Prof Pat для аннотирования полных геномов

6 2 Использование банка Prof Pat для аннотирования последовательностей в базах данных.

Введение Диссертация по биологии, на тему "Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей"

Актуальность проблемы Последние десятилетия стали свидетелями беспрецедентно быстрого накопления данных о структурах геномов, нуклеотидных последовательностях, аминокислотных последовательностях (АКП) белков и связанного с этим развития биоинформатики Однако для того чтобы эта наука вышла за пределы простого коллекционирования фактов, необходимы согласованные усилия по расшифровке биохимической и биофизической информации, скрытой в этих данных, структурных, функциональных и эволюционных текстов, записанных на языке биологических последовательностей Поэтому способы быстрого и достоверного описания структурных и функциональных особенностей также как родственных связей новых последовательностей* оказываются определяющим фактором многих исследований. Наиболее распространенным способом такого описания до сих пор остается сравнение новых последовательностей с последовательностями, описанными ранее Сравнение может проводиться напрямую с последовательностями из банков первичных структур, таких как GenBank, EMBL, PIR- PSD, Swiss-Prot Но гораздо удобнее и информативнее исследование с помощью «вторичных» банков данных, или «банков данных второго поколения» в которых, в некоторых объектах сконцентрирована информация о целых группах (семействах) родственных белков, наиболее характерных и часто уникальных особенностях этой группы Помимо выигрыша в скорости, которая перестает быть лимитирующим фактором после появления мощных суперкомпьютеров, часто только сравнение с «вторичными» базами может выявить достаточно отдалённое родство или сходство на уровне доменов, поскольку, как правило, проводится поиск локального сходства с короткими, наиболее консервативными участками последовательностей. Доказательством всеобщего признания именно такого способа анализа новых последовательностей может служить большое количество и разнообразие «вторичных» баз данных «Банки данных второго поколения» еще долго будут служить главным инструментом при аннотировании вновь секвенируемых геномов, а проблема их развития и совершенствования оставаться актуальной

В частности, современная протеомика - это крупномасштабное изучение всего набора белков, экспрессируемых в клетке, ткани, органе и организме в целом Однако большинство существующих белковых информационных систем, доступных в Далее в тексте предсказание функциональных особенностей и родственных связей белков, кодируемых новыми последовательностями, для краткости будем называть идентификацией аминокислотных последовательностей.

Интернете, обрабатывают за раз по одной последовательности С увеличением числа секвенированных последовательностей получение данных о больших группах белков становится всё более трудоемким процессом Для крупномасштабных исследований геномов необходимы системы, способные обрабатывать большой объем данных.

Цель Целью данной работы являлась разработка банка образов белковых семейств, обеспечивающего высокие чувствительность, специфичность и скорость анализа, а также методов его поддержания и обновления

Научная новизна и практическая ценность.

1) Создан уникальный банк образов белковых семейств ProfPat, содержащий максимально возможное число объединенных в группы родственных белков базы UniProt. Банк является одним из первых в мире, а также первым и единственным в России «банком второго поколения»

2) Сравнение Prof Pat с другими «вторичными» банками показало, что по чувствительности, специфичности и скорости обработки данных он, по крайней мере, не уступает, а, часто, и превосходит все доступные ресурсы такого рода.

3) С помощью банка Prof Pat проанализированы последовательности открытых рамок трансляции полного генома штамма H37Rv Mycobacterium tuberculosis. Для 44 открытых рамок впервые предсказана функция кодируемого белка

4) С высокой степенью достоверности произведена идентификация более четырнадцати тысяч ранее не описанных последовательностей гипотетических белков и открытых рамок трансляции базы UniProt. Тем самым подтверждена целесообразность использования банка Prof Pat для описания вновь секвенированных последовательностей при создании и обновлении баз первичных последовательностей белков

Банк доступен по адресу http //wwwmgs bionet nsc ru/mgs/programs/profpat/ и через ftp bionet nsc ru/pub/biology/\ector/prof pat и ftp ebi ac uk/pub/databases/prof pat.

Публикации По теме диссертации опубликовано 7 статей в российских и зарубежных журналах.

Апробация работы Банк ProfPat, результаты его исследования и применения представлялись:

1) как самостоятельные работы на Международном симпозиуме по теоретическим и компьютерным методам исследования генома (Гейдельберг 1996), Международной конференции "Оценка спонсируемых биологических исследований в России в новом тысячелетии" (Новосибирск 1999), Первом международном рабочем совещании "Биоразнообразие и динамика экосистем Северной Евразии: информационные технологии и моделирование" (Новосибирск 2001), Международных конференциях по биоинформатике регуляции и структуры генома - BGRS (Новосибирск 2000, 2002,2004,2006), Международной московской конференции по компьютерной молекулярной биологии - МССМВ'03 (Москва 2003),

2) как часть разработок ГНЦ ВБ "Вектор" на Рабочих совещаниях "Развитие партнерства с Россией" (Бостон 2001, Москва 2001);

3) обсуждались на семинарах Института молекулярной биологии ГНЦ ВБ «Вектор» и Европейского Института Биоинформатики

Получено свидетельство об официальной регистрации банка Федеральной службой по интеллектуальной собственности Российской Федерации № 2005620050 от 10 февраля 2005 г

Структура работы Работа состоит из введения, шести глав, заключения, выводов и списка литературы (165 наименований) Материал изложен на 127 страницах, содержит 23 рисунка и 16 таблиц В первой главе, которая носит обзорный характер, рассматриваются основные методы предсказания функции белка по его аминокислотной последовательности, возникающие при этом проблемы и подходы к их решению Вторая глава содержит описание принципов построения банка образов белковых семейств Prof Pat на основе информации, содержащейся в базах аминокислотных последовательностей Swiss-Prot и TrEMBL, работы его поисковой системы, а также структуры банка и способов ввода и вывода данных. Третья глава посвящена автоматизированному обновлению базы данных, которое производится по мере выхода новых выпусков порождающих банков. Четвертая и пятая главы содержат анализ особенностей банка Prof Pat, определяющих уровень достоверности сделанных с его помощью предсказаний и отличающих его от других известных «вторичных» баз данных В шестой главе приводятся примеры практического использования банка ProfPat

Благодарности

Считаю своим приятным долгом поблагодарить:

• А.Г. Бачинского, научного руководителя диссертации,

• А.Н. Наумочкина, А.А. Ярыгина (ГНЦ ВБ «Вектор»), JI.A. Мирошниченко (Институт Математики СО РАН), обеспечивших банк данных большинством программных продуктов,

• Д.А. Григоровича (Институт Цитологии и Генетики СО РАН) за обеспечение постоянной поддержки сетевой версии банка,

• С.И. Бажана, А.З. Максютова, О.И. Серпинского, Д.В. Антонца, О.Е. Белову, Г.В. Шестакову, Е.А. Рыжикова за полезные советы, помощь и под держку при написании и оформлении диссертации

Заключение Диссертация по теме "Молекулярная биология", Низоленко, Лилия Филипповна

выводы

1 На основе банка UniProt создан «вторичный» банк образов белковых семейств Prof Pat для быстрой идентификации новых аминокислотных последовательностей, поиска как значительного, так и отдаленного сходства с известными белковыми семействами с целью предсказания функций белков, кодируемых вновь расшифрованными аминокислотными последовательностями.

2. При анализе 3670 новых, не входивших в ProfPat последовательностей базы UniProt кодирующих ферменты, показано, что при уровне сходства 90% и соблюдении пороговых условий, обеспечивающих достоверность результатов, чувствительность банка ProfPat составляет 94.8%, а специфичность достигает 99 6%

3. Показано, что Prof Pat по скорости сравнения во много раз превосходит все известные "вторичные" банки. По чувствительности и специфичности банк ProfPat не уступает существующим аналогам, и во многих случаях способен распознавать последовательности, не опознанные другими базами данных.

4. С помощью банка Prof Pat проанализированы последовательности открытых рамок трансляции (ОРТ) полного генома штамма H37Rv Mycobacterium tuberculosis Из 3924 последовательностей, 3922 опознаются хотя бы одним элементом образа банка ProfPat Для 44 ОРТ возможная функция кодируемого белка предсказана впервые.

5 С высокой степенью достоверности произведена идентификация более 14000 ранее не описанных последовательностей гипотетических белков и открытых рамок трансляции базы UniProt В то же время, показано, что из почти миллиона последовательностей банка UniProt, имеющих ссылку на ресурс Interpro, банком Prof Pat не опознаются только четыре

ЗАКЛЮЧЕНИЕ

Целью данной работы являлось создание и исследование банка образов белковых семейств для быстрой идентификации аминокислотных последовательностей и методов его поддержания и обновления.

Основным методом предсказания возможных функций вновь определяемых аминокислотных последовательностей до сих пор остается их сравнение с белками, обладающими известными функциями, и приписывание этим последовательностям функций близких по структуре белков

При наличии групп родственных белков, содержащаяся в них информация может быть сконцентрирована в некоторых объектах, например, блоках, мотивах, паттернах, с тем, чтобы проводить сравнение с банком этих объектов, а не с банком первичных последовательностей. Анализ новых белков с помощью таких баз данных, называемых «вторичными» или «базами второго поколения», помимо экономии времени значительно превосходит прямое сравнение по чувствительности и специфичности

Банк образов белковых семейств Prof Pat, которому посвящена данная работа -типичный представитель «вторичных» баз данных множественных мотивов По аналогии с паттернами банка PROSITE элементы (мотивы) образа представляют интервалы позиций выравненных последовательностей белков, не содержащие делеций/вставок, содержат до десяти «активных» позиций, и некоторые позиции могут быть объявлены «пассивными» или «незначимыми». Однако поскольку, в отличие от PROSITE, Prof Pat является классическим представителем баз данных множественных мотивов, он избежал основных недостатков поиска гомологии по единственному мотиву.

Группы родственных последовательностей строятся в автоматическом режиме на основании сходства последовательностей, автоматически же производится их выравнивание и построение элементов (мотивов) образа, что обеспечивает полноту данных, недоступную при формировании семейств вручную и исключает субъективные факторы Элемент образа Prof Pat представляет собой вырожденное слово THnaK-[D,E]-F-[I,V]-C-X-[A,S,T]-X-[M,N,D], что обеспечивает большую гибкость сравнения и исключает потерю информации

Специфичность мотива оценивается по частоте встречаемости входящих в него аминокислот в белках

При сравнении последовательностей с банком Prof Pat используется известный и хорошо зарекомендовавший себя метод оценки степени сходства с использованием матриц близости аминокислот, таких как матрицы семейства РАМ или BLOSUM

Несмотря на то, что банк Prof Pat создавался ранее большинства других вторичных банков, он сочетает в себе положительные качества многих «вторичных» банков данных, и учитывает их слабые стороны Кроме того, банк Prof Pat обладает и уникальными особенностями, не характерными для других аналогичных баз данных.

С самого начала он создавался таким образом, чтобы входящие в него образы (паттерны) представляли возможно большее число белков банка Swiss-Prot /TrEMBL. Этот принцип соблюдается и во всех последующих выпусках банка. Если вторичный банк не является действительно представительным, он не сможет найти широкого применения. Отрицательные результаты сравнения последовательности с этим вторичным банком вынуждают пользователя обращаться к другим базам данных или проводить прямые сравнения с большими исходными банками последовательностей

Для крупномасштабных исследований геномов необходимы системы, способные обрабатывать большой объем данных. Prof Pat может обработать за один сеанс сколь угодно большой набор (при необходимости десятки и сотни тысяч), а не единственную последовательность

ProfPat снабжен чрезвычайно быстрой программой поиска как высокого, так и достаточно отдаленного сходства (превосходящей по скорости, к примеру, один из самых крупных и современных банков Interpro более чем в 100 раз).

Банк Prof Pat существует в двух версиях - полной сетевой, и локальной редуцированной Редукция банка состоит в ограничении числа мотивов в каждом паттерне пятью лучшими

К сожалению, представить в рамках одной работы достаточно подробное описание содержащихся в банке ГРП и соответствующих им образов не представляется возможным Даже если ограничиться только цифровыми идентификаторами и полем DE образов, для выведения их полного списка потребовалось бы более полутора тысяч страниц, напечатанных в том же формате, что и данная работа

При работе с белковыми банками (как и с любыми базами, содержащими информацию, изменяющуюся очень быстро) важна не только полнота, но и актуальность представленных данных. Таким образом, обновление базы становится первоочередной задачей Банк Prof Pat обновляется в полуавтоматическом режиме по мере выхода новых выпусков порождающих банков Swiss-Prot и TrEMBL Обновление проходит три основных этапа1

1 - модификация существующих групп родственных белков

2 - пополнение существующих групп родственных белков.

3 - построение новых групп родственных белков

При работе с любой базой данных необходимо знать, при каких условиях результаты анализа окажутся достоверными. Для банка Prof Pat существует количественная оценка неслучайности выявленного сходства анализируемой последовательности с белками опознающего ее семейства Она определяется параметром Score, который приводится в протоколе сравнения. Этот параметр учитывает длину белка, число мотивов в образе, задаваемый уровень сходства и зависит от используемой матрицы сходства Показано, что при Score/n > 3 , где п -число мотивов в паттерне, отсекается более 92% ложноположительных результатов и при этом теряется не более 6% положительных. Можно также пользоваться пороговым значением Score/m > 7, где m - число мотивов, обнаруживших сходство. При этом теряются 2% положительных, но отсекаются более 87% ложноположительных случаев сходства

Исследования новых АКП, кодирующих ферменты и не входивших в ProfPat, показали, что при уровне сходства 90% и соблюдении пороговых условий, чувствительность банка оказывается 94 8%, а специфичность достигает 99.6%.

Отдельный образ банка ProfPat не всегда описывает какое-то семейство целиком. Ограничения, введенные в банке для большей достоверности результатов сравнения и качества выравнивания, иногда приводят к тому, что семейства разбиваются на две или более подгрупп белков Таким образом, число групп родственных белков банка превышает реальное количество представленных в нём семейств, которое по оценке составляет ~98000

Как уже было сказано, банк Prof Pat построен так, что сочетает в себе положительные качества многих «вторичных» банков данных, и учитывает их слабые стороны. В результате Prof Pat, не уступая зарубежным аналогам в чувствительности, во всех исследованных случаях превосходит по скорости получения результатов и по специфичности наиболее известные базы и даже интегрированный ресурс Interpro.

Банк Prof Pat можно использовать для предсказания функций белка, кодируемого новой аминокислотной последовательностью Однако, хотя точность этого предсказания не уступает точности других банков, описания ГРП ProfPat все же являются довольно краткими. Поэтому для каждой отдельной последовательности такое предсказание оказывается лишь первым, хотя и необходимым, этапом исследования

Поскольку преимуществом банка Prof Pat является очень быстрый алгоритм сравнения, а также возможность работать со сколь угодно большими группами последовательностей за один проход, это делает целесообразным его использование для предварительной сортировки открытых рамок трансляции больших фрагментов геномов - полных геномов прокариотов и участков либо целых хромосом эукариотов Примером такого использования банка Prof Pat может служить исследование аминокислотных последовательностей открытых рамок трансляции наиболее активно изучаемого во всем мире штамма H37Rv Mycobacterium tuberculosis

Другой областью применения банка ProfPat может быть описание новых или еще не идентифицированных АКП при обновлении баз первичных последовательностей белков

Банк Prof Pat, доступный по адресу http //wwwmgs2 bionet nsc ru/mgs/programs/prof pat/ ftp bionet nsc ru/pub/biology/vector/prof pat и ftp ebi ac uk/pub/databases/prof pat, достаточно широко известен среди ученых, занимающихся аннотированием баз данных или полных геномов. (Srinivasarao et al., 1999, Higgins, Taylor, 2000, P'erez et al,. 2002, Cai, Doig, 2004, Dobson et al., 2004, Miguel, 2004)

Библиография Диссертация по биологии, кандидата биологических наук, Низоленко, Лилия Филипповна, Кольцово

1. Бачинский А Г., Ярыгин А.А., Куличков. В.А, Гусева Е Г. 1995, Банк образов белковых семейств PROFIMAGE для быстрого определения возможных функций произвольных аминокислотных последовательностей // Молекулярная Биология, 29, 907-917.

2. Бачинский А Г., Ярыгин А А , Наумочкин А.Н, Низоленко JIФ., Куличков В А 1999, Сетевая версия банка образов белковых семейств PROF PAT 1.1// Молекулярная Биология, 33, .873-880.

3. Зеленин А В , 2003, Геном растений // Вестник Российской Академии Наук, 73, 797-806

4. Низоленко J1. Ф., Бачинский А Г., Наумочкин А. Н., Ярыгин А. А., Григорович Д А 2004, Банк образов белковых семейств ProfPat, оценка эффективности //

5. Молекуляр Биология, 38, 256-264

6. Abhiman S , Sonnhammer ELL 2005 FunShift: a database of function shift analysis on protein subfamilies 11 Nucleic Acids Res ,33, D197-D200

7. Aho A V , Corasic M J 1975, Efficient String Matching: An Aid to Bibliographic Search // Commun ACM 18, 333-340

8. Andreeva A, Howorth D , Brenner S.E., Hubbard T J P , Chothia C., Murzin A.G. 2004 SCOP database in 2004• refinements integrate structure and sequence family data // Nucleic Acids Res, 32, D226-D229.

9. AshburnerM, DrysdaleR 1994 Flybase the Drosophila genetic database // Development, 120,2077-2079

10. Altshul S F , Gish W, Miller W , Myers E W , Lipman D J 1990, Basic local alignment search tool // J Mol Biol, 9, 403-410

11. Altschul S.F., Lipman D.J. 1990. Protein database searches for multiple alignments HProc Natl Acad Sci USA, 87, 5509-5513.

12. Altschul S F, Madden T. L, Schaffer A. A , Zhang J , Zhang Z , Miller W., Lipman D J 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Res., 25, 3389-3402

13. Amitai G, Shemesh A, Sitbon E, Shklar M, Netanely D, Venger I, Pietrokovski S 2004. Network analysis of protein structures identifies functional residues IIJ Mol Biol, 344,1135-1146

14. Attwood T К, Beck M.E., Bleasby A.J., Parry-Smith D J. 1994, PRINTS A database of protein motif fingerprints // Nucleic Acids Res, 22, 3590-3596.

15. Attwood T К, Flower D R., Lewis A.P, Mabey J E., Morgan S R., Scordis P., Selley J.N, Wright W 1999. PRINTS prepares for the new millennium // Nucleic Acids Res, 27,220-225.

16. Attwood T К 2000 The quest to deduce protein function from sequence, the role of pattern databases // International Journal of Biochemistry and Cell Biology, 32,139 -155.

17. Attwood T.K, Craning M. D. R, Flower D. R, Lewis A. P , Mabey J. E., Scordis P., Selley J N., Wright W. 2000. PRINTS-S. the database formerly known as PRINTS // Nucleic Acids Res, 28,225-227.

18. Attwood, Т.К., Bradley, P., Flower, D.R., Gaulton, A , Maudling, N., Mitchell, A.L , Moulton, G, Nordle, A., Paine, К, Taylor, P., Uddin, A & Zygoun, C. 2003 PRINTS and its automatic supplement, prePRINTS I/Nucleic Acids Res, 31,400-402.

19. Bachinsky A.G , Yangin A.A., Guseva E H., Kulichkov V A , Nizolenko L.Ph. 1997, A bank of protein family patterns for rapid identification of possible functions of amino acid sequences II Comput Apphc Biosci, 13,115-122

20. Bachinsky A G., Frolov A.N , Naumochkin A. N , Nizolenko L. Ph, Yangin A A 2000, PROFPAT 1.3' Updated database of patterns used to detect local similarities IIBioinformatics, 16,358-366.

21. Bairoch A, Boeckmann В. 1991, The SWISS-PROT protein sequence data bank// Nucleic Acids Res , 19, Suppl. 2247,2247-2249.

22. Bairoch A. 1993, The PROSITE dictionary of sites and patterns in proteins, its current status // Nucleic Acids Res, 21, 3097-3103.

23. Bairoch A, Bucher P. 1994, PROSITE: recent developments// Nucleic Acids Res, 22, 3583-3589.

24. Bairoch A , Apweiler R. 1996, The SWISS-PROT protein sequence data bank and its new supplement TREMBL/ /Nucleic Acids Res, 24, 21-25

25. Baker D. 2006. Prediction and design of macromolecular structures and interactions // Phil Trans R Soc 5,361,459^163

26. Bateman,A., Birney,E, Durbin,R., Eddy,S R, Howe,К L , Sonnhammer,E L L 2000 The Pfam protein families database // Nucleic Acids Res, 28,263-266

27. Bateman A , Birney E, Cerruti L , Durbin R, Etwiller L, Eddy S R, Griffiths-Jones S , Howe К L , Marshall M, Sonnhammer E.L L 2002, The Pfam protein families databassJINucleic Acids Res, 30, 276-280

28. Bateman A , Coin L, Durbin R, Finn R.D., Hollich V., Griffiths-Jones S , Khanna A, Marshall M., Moxon S , Sonnhammer E. L. L , Studholme D J , Yeats C., Eddy S R 2004. The Pfam protein families database // Nucleic Acids Res, 32, D138-D141

29. Berman H M , Westbrook J , Feng Z , Gilliland G., Bhat T.N , Weissig H , Shindyalov IN , Bourne P E. 2000 The Protein Data Bank // Nucleic Acids Res , 28, 235-242

30. Binkowski T A , Naghibzadeh S., Liang J 2003. CASTp: Computed Atlas of Surface Topography of proteins IINucleic Acids Res ,31, 3352-3355.

31. Binkowski T A , Freeman P., Liang J. 2004. pvSOAR- detecting similar surface patterns of pocket and void surfaces of amino acid residues on proteins // Nucleic Acids Res, 32, W555-W558.

32. Bleasby A.J., Akrigg D., Attwood Т. K. 1994. OWL a non-redundant composite protein sequence database.// Nucleic Acids Res, 22, 3574-3577

33. Bork P, Schultz J, Ponting С P 1997, Cytoplasmic signalling domains- the next generation // Trends Biochem Sci, 22, 296-298

34. Bradley, P, Misura, K.M.S., Baker, D. 2005 Toward high-resolution de novo structure prediction for small proteins // Science, 309,1868-1871.

35. Brooksbank C., Cameron G., Thornton J. 2005. The European Bioinformatics Institute's data resources: towards systems biology // Nucleic Acids Res., 33, D46-D53.

36. Bru C., Courcelle E, Carrere S , Beausse Y., Dalmar S., Kahn D 2005. The ProDom database of protein domain families, more emphasis on 3D. // Nucleic Acids Res , 33, D212-D215

37. Buchan D.W, Rison S С, Bray J E, Lee D , Pearl F., Thornton J.M., Orengo C.A. 2003. Gene3D: structural assignments for the biologist and bioinformaticistalikeJ/Nucleic Acids Res ,31,469-473

38. Cai Y , Doig A J 2004, Prediction of Saccharomyces cerevisiae protein functional class from functional domain composition /УBioinformatics 20,1292-1300.

39. Cai С Z , Han L.Y , Ji Z L , Chen Y.Z. 2004 Enzyme family classification by support vector machines // Proteins, 55, 66-76

40. Camon E., Magrane M, Barrell D., Lee V., Dimmer E , Maslen J , Binns D , Harte N., Lopez R, Apweiler R 2004, The Gene Ontology Annotation (GOA) Database sharing knowledge in Uniprot with Gene Ontology.// Nucleic Acids Res, 32, D262-D266.

41. Corpet F , Gouzy J , Kahn D. 1999. Recent improvements of the ProDom database of protein domain families H Nucleic Acids Res, 27,263-267.

42. Dayhoff, M O., Eck,R V , Park C.M. 1972 A Model of Evolutionary Change in Proteins // In Dayhoff, M.O. (ed) Atlas of Protein Sequence and Structure, Silver Spring, MD: National Biomedical Research Foundation, 5,89-99.

43. Dobson P.D., Cai Y D., Stapley В J., Doig A J. 2004 Prediction of protein function in the absence of significant sequence similarity.HCurr Med Chem., 11,2135-2142

44. Dodge C., Schneider R, Sander С. 1998 The HSSP database of protein structure-sequence alignments and family profiles!/Nucleic Acids Res, 26, 313-315

45. Finn R.D , Marshall M, Bateman A. 2005. lPfam: visualization of protein-protein interactions m PDB at domain and amino acid resolutions // Bioinformatics, 21,410412

46. Finn R. D., Mistry J., Schuster-Bockler В., Griffiths-Jones S , Hollich V , Lassmann T, Moxon S., Marshall M., Khanna A., Durbin R, Eddy S R , Sonnhammer ELL, Bateman A. 2006. Pfam: clans, web tools and services /'/Nucleic Acids Res, 34, D247-D251.

47. EddySR 1996 Hidden Markov models.//Current Opinion in Structural Biology 6, 361-365

48. Eddy S. R. 1998 Profile Hidden Markov Models //Bioinformatics, 14, 755-763.

49. Ferre F., Ausiello G., Zanzoni A., Helmer-Citterich M 2004. SURFACE a database of protein surface regions for functional annotation // Nucleic Acids Res , 32, D240-D244

50. Gasteiger E, Gattiker A , Hoogland С , Ivanyi I., Appel R D., Bairoch A. 2003. ExPASy: the proteomics server for in-depth protein knowledge and analysis // Nucleic Acids Res, 31,3784-3788

51. The Gene Ontology Consortium 2000, Gene Ontology tool for the unification of biology //Nat Genet, 25,25-29.

52. George D G , Barker W.C., Hunt L.T. 1986, The protein identification resource (PIR) // Nucleic Acids Res, 14,11-15

53. Glaser, F., Pupko, T, Paz, I, Bell, R E , Bechor-Shental, D., Martz, E., Ben-Tal, N. 2003 ConSurf: identification of functional regions in proteins by surface-mapping of phylogenetic information. IIBioinformatics, 19. 163-164

54. Golovin A., Dimitropoulos D , Oldfield T, Rachedi A and Henrick К 2005 MSDsite A Database Search and Retrieval System for the Analysis and Viewing of Bound Ligands and Active Sites IIProteins Structure, Function, and Biomformatics, 58,190199

55. Gough, J., Karplus, K., Hughey, R, Chothia, С 2001. Assignment of Homology to Genome Sequences using a Library of Hidden Markov Models that Represent all Proteins of Known Structure IIJ Mol Biol., 313,903-919.

56. Gnbskov M, McLachlan AD, Eisenberg D. 1987 Profile analysis1 detection of distantly related proteins Proc Natl Acad Sci U S A, 13,4355-4358

57. Gribskov M., Homyak M., Edenfield J., Eisenberg D. 1988, Profile scanning for three-dimensional structural patterns in protein sequences // Comput Applic Biosci, 4, 61-66.

58. Gutteridge A, Bartlett G.J., Thornton J.M.2003. Using a neural network and spatial clustering to predict the location of active sites in enzymes Л J Mol Biol, 330,719734

59. Haft D.H, Loftus В J, Richardson D L , Yang F , Eisen J A , Paulsen IT , WhiteO 2001. TIGRFAMs: a protein family resource for the functional identification of proteins // Nucleic Acids Res, 29,41-43.

60. Haft D.H , Selengut J D , White O. 2003 The TIGRFAMs database of protein families.// Nucleic Acids Res, 31, 371-373

61. Hanks S К, Quinn A M , Hunter T 1988 The protein kinase family conserved features and deduced phylogeny of the catalytic domains // Science, 241,42-52

62. Hannenhalli S S., Russell R В 2000 Analysis and prediction of functional sub-types from protein sequence alignments IIJ Mol Biol, 303, 61-76

63. Harrison A., Pearl F., Sillitoe I, Slidel T, Mott R., Thornton J M , Orengo C. 2003, Recognising the fold of a protein structure // Bioinformatics, 19,1748-1759

64. Henikoff S , Wallace J С , Brown J P. 1990, Finding protein similarities with nucleotide sequence databases // Methods Enzymol, 183,111-132

65. Henikoff S., Henikoff J G 1991, Automated assembly of protein blocks for database searching // Nucleic Acids Res, 19, 6565-6572

66. Henikoff S., Henikoff J.G. 1992, Amino acid substitution matrices from protein blocks II Proc Natl Acad Set, USA, 89, 10915-10919

67. Henikoff S., Henikoff J G 1994, Protein family classification based on searching a database of blocks // Genomics, 19, 97-107.

68. Henikoff S , Henikoff J G Position-based sequence weights.// J Mol Biol 1994. 243, 574-578

69. Henikoff S , Henikoff J.G., Alford W.J., Pietrokovski S 1995, Automated construction and graphical presentation of protein blocks from unaligned sequences // Gene, 163, GC17-26

70. Henikoff J G , Greene E.A., Pietrokovski S , Henikoff S. 2000. Increased coverage of protein families with the blocks database servers // Nucl Acids Res., 28, 228-230.

71. Higgins D G, Bleasby A.G, Fuch R. 1992, CLUSTAL V: Improved software for multiple sequence alignment.// Comput Applic Biosci, 8,189-191.

72. Higgins D , Taylor W 2000, Bioinformatics Sequence, Structure, and Databanks a Practical Approach (Practical Approach Series). // Oxford Univ Pr 270 pp.83.

73. Holm L, Sander C. 1993, Protein structure comparison by alignment of distance matrices // J Mol Biol ,233,123-138

74. Huang J Y, Brutlag LB 2001 The EMOTIF database.// Nucleic Acids Res, 29,2224.

75. Huang H, Barker W.C., Chen Y., Wu С. H. 2003. iProClass an integrated database of protein family, function and structure information // Nucleic Acids Res ,31, 390-392.

76. Hulo N., Bairoch A , Bulliard V , Cerutti L , De Castro E ,Langendijk-Genevaux P.S., Pagni M., Sigrist C.J A 2006. The PROSITE database //Nucleic Acids Res, 34, D227-D230

77. Ivanisenko V A., Pintus S S , Gngorovich D A, Kolchanov N A. 2004. PDBSiteScan a program for searching for active, binding and posttranslational modification sites in the 3D structures of proteins // Nucleic Acids Res, 32, W549-W554.

78. Jambon M, Imberty A., Deleage G., Geourjon С 2003 A new bioinformatic approach to detect common 3D sites in protein structures // Proteins, 52,137-145.

79. Jones S., van Heyningen P., Berman, H.M., Thornton, J M 1999, Protein-DNA Interactions A structural analysis IIJMol Biol, 287, 877-896.

80. Karp P.D., Riley M, Paley S M., Pelligrini-Toole A. 1996. EcoCyc an encyclopedia of Escherichia coli genes and metabolism 11 Nucleic Acids Res, 24, 32-39

81. Karplus K, Barrett C, Hughey R 1988. Hidden Markov models for detecting remote protein homologies.//Biomformatics, 146, 846-856

82. Karplus К, Karchin R., Barrett С , Tu S , Clme M., Diekhans M, Grate L , Casper J , Hughey R 2001. What is the value added by human intervention in protein structure prediction // Proteins, 45 Suppl. 5, 86-91.

83. Kleywegt G J 1999 Recognition of spatial motifs in protein structures HJ Mol Biol, 285,1887-1897

84. Kopp J., Schwede T, 2004 The SWISS-MODEL Repository of annotated three-dimensional protein structure homology models //Nucleic Acids Res , 32, D230-D234

85. Krissinel E, Henrick K. 2004, Secondary-structure matching (SSM), a new tool for fast protein structure alignment in three dimensions.// Acta Crystallogr D Biol Crystallogr, D60, 2256-2268

86. Krogh,A , Brown,M , Mian,I.S., Sjolander,K., Haussler,D 1994 Hidden markov models in computational biology. Applications to protein modeling // J Mol Biol, 235,1501-1531.

87. Lander E.S , Linton L M , Birren В., Nusbaum C., Zody M С , et al., 2001, Initial sequencing and analysis of the human genome.//Nature 409, 860-921

88. LaskowskiR A. 1995 SURFNET: A program for visualizing molecular surfaces, cavities and intermolecular interactions.// J Mol Graph , 13, 323-330

89. Laskowski R. A., Watson J D, Thornton J. M. 2005 ProFunc. a server for predicting protein function from 3D structure // Nucleic Acids Res , 33, W89-W93.

90. Lipman DJ, Pearson WR. 1985, Rapid and sensitive protein similarity searches // Science, 227, 1435-1441.

91. Madej Т., Gibrat J F., Bryant S.H. 1995, Threading a database of protein cores // Proteins, 23, 356-369

92. Madera M., Vogel С , Kummerfeld S K., Chothia С , Gough J. 2004. The SUPERFAMILY database in 2004: additions and Improvements // Nucleic Acids Res, 32, D235-D239.

93. Marti-Renom M A, Stuart A., Fiser A., Sanchez R., Melo F., Sali A 2000 Comparative protein structure modeling of genes and genomes. HAnnu Rev Biophys Biomol Struct ,29,291-325

94. Mi H, Lazareva-Ulitsky В., Loo R, Kejanwal A , Vandergnff J., Rabkin S , Guo N , Muruganujan A, Doremieux О , Campbell M J., Kitano H , Thomas P D , 2005. The PANTHER database of protein families, subfamilies, functions and pathways.

95. Nucleic Acids Res, 33, D284-D288

96. Miguel R N 2004. Sequence patterns derived from the automated prediction of functional residues in structurally-aligned homologous protein families. // Bioinformatics, 20,2380-238

97. С J A, Vaughan R, Zdobnov E M 2003, The InterPro Database, 2003 brings increased coverage and new features // Nucl Acids Res., 31,315-318

98. Murzin,A , Brenner,S.E, Hubbard,T.J.P. and Chothia,C. 1995. SCOP-a Structural Classification of Proteins database for the investigation of sequences and structures // J Mol Biol, 247, 536-540

99. Needleman S В , Wunsh С D 1970, A general method applicable to the search for similarities in the amino acid sequence of two proteins // J Mol Biol, 48,443-453

100. Nizolenko L Ph, Bachmsky A.G, Naumochkin A.N., Yarigin A A., Grigorovich D.A. 2003, Database of patterns PROFPAT for detecting local similarities // In Silico Biology, 3,205-213.

101. Novotny M, Madsen D , Kleywegt G J. 2004 Evaluation of protein fold comparison servers // Proteins, 54,260-270

102. Ogiwara A, Uchiyama L, Seto Y., Kanehisa M. 1992, Construction of a dictionary of sequence motifs that characterize groups of related proteins // Protein Engineering, 5, 479-488

103. Orcutt, B.C, George, D.G., Dayhoff, MO 1983, Protein and Nucleic Acid Sequence Database Systems // Annu Rev Biophys Bioeng., 12, 419-441.

104. Orengo С , Michie A , Jones S , Jones D., Swindells M , Thornton J 1997 CATH a hierarchic classification of protein domain structures J/Structure, 5, 1093-1108

105. Pagel P., Kovac S , Oesterheld M., Brauner В., Dunger-Kaltenbach I., Frishman G., Montrone С , Mark P, Stumpflen V , Mewes H.W , Ruepp A , Frishman D 2005 The MIPS mammalian protein-protein interaction database //Bioinformatics, 21, 832-834

106. Pal D , Eisenberg D. 2005. Inference of protein function from protein structure // Structure, 13:1-10

107. Patthy L 1987, Detecting homology of distantly related proteins with consensus sequences// J Mol Biol, 198, 567-577.

108. Pearson W R, Lipman D J. 1988. Improved tools for biological sequence comparison // Proc Natl Acad Sci U S A, 85, 2444-2448

109. Perez A J., Rodr iguez A , Trelles О , ThodeG 2002. A computational strategy for protein function assignment which addresses the multidomain problem HComp Funct Genom, 3, 423^40

110. Petrey D., Honig В 2005. Protein Structure Prediction: Inroads to Biology // Molecular Cell, 20, 811-819 Pietrokovski,S 1996. Searching databases of conserved sequence regions by aligning protein multiple-alignments // Nucleic Acids Res, 24, 3836-3845

111. Pongor S., Skerl V , Cserzo M.,Hatsagi Z , Simon G, Bevilacqua V. 1993. The SBASE protein domain library, release 2 0- a collection of annotated protein sequence segments //Nucleic Acids Res ,21,3111-3115.

112. Pongor S , Hatsagi Z, Degtyarenko K., Fabian P., Skerll V.,Hegyi H , Murvai J , Bevilacqua V. 1994. The SBASE protein domain library, release 3 0a collection of annotated protein sequence segments // Nucleic Acids Res , 17,3610-3615

113. Ponting CP, Schultz J, Milpetz F, Bork P 1999. SMART: identification andannotation of domains from signalling and extracellular protein sequences // Nucleic Acids Res, 27,2292-2232

114. Porter C.T, Bartlett G J , Thornton J M. 2004. The Catalytic Site Atlas a resource of catalytic sites and residues identified in enzymes using structural data // Nucl Acids Res., 32, D129-D133

115. Rohl С A . Strauss С Ь M , Misura К M S , Baker D 2004 Protein structure prediction using rosetta // Melh Enzym ,383, 66-93

116. Rost В 2002, Enz>me function less conserved than anticipated // Journal of Molecular Biology 318. 595-608Sankoff D. 1972, Matching sequences under deletion-insertion constraints // Proc Natl Acad Sci USA, 69,4-6.

117. Sadreyev,R I, Gnshin,N V. 2003 COMPASS: a tool for comparison of multiple protein alignments with assessment of statistical significance // J Mol Biol, 326, 317-336

118. Shanahan HP, Garcia MA, Jones S, Thornton JM 2004, Identifying DNA-binding proteins using structural motifs and the electrostatic potential // Nucleic Acids Res, 32, 4732-4741

119. Shrager J 2003, The fiction of function.// Bioinformatics, 19,1934-1936

120. Shindyalov I.N., Bourne P E 1998, Protein structure alignment by incremental combinatorial extension (CE) of the optimal path // Protein Eng ,11, 739-747.

121. Schueler-Furman O., Wang С , Bradley Ph., Misura К, Baker D. 2005. Progress in Modeling of Protein Structures and Interactions // Science, 310, 638-642

122. Schultz,J., Milpetz,F., Bork,P., Ponting,C P 1998 SMART, a Simple Modular Architecture Research Tool: identification of signaling domains // Proc Natl Acad Sci USA, 95,5857-5864.

123. Sjolander К 2004 Phylogenomic inference of protein molecular function advances and challenges.// Bioinformatics, 20,170-179.

124. Smith TF., Waterman MS 1981 Identification of common molecular subsequences IIJ Mol Biol. 147:195-197

125. Smith R F, Smith T F 1990, Automatic generation of primary sequence patterns from sets of related protein sequences // Proc Natl Acad Sci USA, 87, 118-122

126. Smith,H.O., Annau,T.M., Chandrasegaran,S 1990. Finding sequence motifs in groups of functionally related proteins 11 Proc Natl Acad Sci USA, 87,826-830

127. Soding J. 2004. Protein homology detection by HMM-HMM comparison. Bioinformatics, 21, 951-960

128. Sonnhammer E.L.L, Kahn D. 1994. Modular arrangement of proteins as inferred from analysis of homology // Protein Sci, 3,482-492.

129. Sonnhammer,E L.L , Eddy,S.R, Durbin,R. 1997. Pfam: a comprehensive database of protein domain families based on seed alignments. // Proteins, 28,405^120.

130. Sonnhammer ELL, Eddy S R , Birney E , Bateman A, Durbin R 1998, Pfam multiple sequence alignments and HMM-profiles of protein domains // Nucleic Acids Res, 26, 320-322

131. Srinivasarao GY, Yeh LS, Marzec CR, Orcutt ВС, Barker WC 1999 PIR-ALN" a database of protein sequence alignments IIBioinformatics, 15, 382-390

132. Stain L 2001 Genome annotation: from sequence to biology // Nature Reviews, 2, 493-503.

133. Sternberg M J. 1996 Protein Structure Prediction: A Practical Approach // Oxford University Press, 320 pp.

134. Stark A , Shkumatov A , Russell R.B. 2004 Finding functional sites in structural genomics proteins // Structure, 12,1405-1412.

135. Todd A.E , Orengo C.A., Thornton J M (2001) Evolution of protein function, from a structural perspective IIJ Mol Biol, 307,1113-1143

136. Tsuchiya Y, Kinoshita К, Nakamura H , 2005, PreDs a server for predicting dsDNA-binding site on protein molecular surfaces // Bioinformatics, 21,1721-1723

137. Vinayagam A., Konig R., Moorman J., Schubert F , Eils R, Glatting K-H., Suhai S 2004. Applying support vector machines for Gene Ontology based gene function prediction // BMC Bioinformatics, 5,116.

138. Vlahovicek К, Kajan L , Agoston V , Pongor S. 2005. The SBASE domain sequence resource, release 12 prediction of protein domain-architecture using support vector machines // Nucleic Acids Res, 33, D223-D225.

139. Vogt G. Etzold Th, Argos P 1995, An assessment of amino acid exchange matrices in aligning protein sequences: the twilight zone revisited. IIJ Mol Biol 246, 816-831

140. Wallace J.C., Henikoff S 1992, PATMAT: a searching and extraction program for sequence, pattern and block queries and databases/// Comput Appl Biosci, 8,249254.

141. Wallace A.C.; Laskowski R A.; Thornton J.M. 1996, Derivation of 3D coordinate templates for searching structural databases: Application to the Ser-His-Asp catalytic triads of the serine proteinases and lipases // Protein Science, 5,1001-1003.

142. Wangikar P.P., Tendulkar A.V, Ramya S , Mali D N., Sarawagi S. 2003. Functional sites in protein families uncovered via an objective and automated graph theoretic approach l/JMol Biol, 326, 955-978

143. Watterman M S., Arratia R, Galas D.J. 1984, Pattern recognition in several sequences1 consensus and alignment 11 Bull Math Biol, 46, 515-527.

144. Watson J D , Laskowski R A., Thornton J.M. Predicting protein function from sequence and structural data //Current Opinion in Structural Biology, 2005, 15, 275284.

145. Whisstock J C., Lesk A M 2003, Prediction of protein function from protein sequence and structure HQ Rev Biophys, 36, 307-340

146. Wilson С A, Kreychman J , Gerstein M. (2000) Assessing annotation transfer for genomics quantifying the relations between protein sequence, structure and function through traditional and probabilistic scores // J Mol Biol, 297,233-249.

147. Wu С H , Zhao S , Chen H.L 1996 A protein class database organized with ProSite protein groups and PIR superfamilies // J Comput Biol, 3, 547-561.

148. Wu С H , Huang H, Nikolskaya A, Hu Z, Barker W.C. 2004b The iProClass integrated database for protein functional analysis H Comput Biol and Chem, 28, 87-96

149. Yao H, Kristensen DM, Mihalek I, Sowa ME, Shaw C, Kimmel M, Kavraki L, Lichtarge 0. 2003. An accurate, sensitive and scalable method to identify functional sites in protein structures IIJ Mol Biol, 334, 387-401

150. Yona G , Levitt M. 2002 Within the twilight zone a sensitive profile-profile comparison tool based on information theory//. J Mol Biol ,315,1257-1275

151. Zhu J., Weng Z. 2005, FAST, a novel protein structure alignment algorithm // Proteins, 58,618-627.