Бесплатный автореферат и диссертация по биологии на тему
Автоматический анализ научных текстов для создания семантических сетей белков
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Автоматический анализ научных текстов для создания семантических сетей белков"

На правах рукописи

Ли

ПОНОМАРЕНКО Елена Александровна

АВТОМАТИЧЕСКИЙ АНАЛИЗ НАУЧНЫХ ТЕКСТОВ ДЛЯ СОЗДАНИЯ СЕМАНТИЧЕСКИХ СЕТЕЙ БЕЛКОВ

03.00.28-биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Москва - 2009 г.

003473179

Работа выполнена в Учреждении Российской академии медицинских наук Научно-исследовательском институте биомедицинской химии им. В.Н.Ореховича РАМН

Научный руководитель:

доктор биологических наук Лисица Андрей Валерьевич

Официальные оппоненты:

доктор биологических наук, профессор Каменская Марина Александровна

доктор биологических наук Веселовский Александр Владимирович

Ведущая организация: Учреждение Российской академии наук Институт молекулярной биологии им. В.А.Энгельгардта РАН

Защита состоится «14» мая 2009 года в 13:00 часов на заседании Диссертационного совета Д 001.010.01 при Учреждении Российской академии медицинских наук Научно-исследовательском институте биомедицинской химии им. В.Н.Ореховича РАМН по адресу: 119121, г.Москва, Погодинская ул., д. 10

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии медицинских наук Научно-исследовательского института биомедицинской химии им. В.Н.Ореховича РАМН.

Автореферат разослан « апреля 2009 г.

Ученый секретарь Диссертационного совета, кандидат химических наук

Е.А. Карпова

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ 1.1. Актуальность проблемы

Применение современных высокопроизводительных подходов к исследованию живых систем позволяет выдвигать предположения о молекулярных взаимосвязях, лежащих в основе исследуемых биологических процессов. Эти предположения должны подвергаться критической оценке в свете данных, опубликованных в научной литературе. Ознакомление с соответствующими литературными источниками при анализе результатов высокопроизводительных экспериментов занимает длительное время и не всегда обеспечивает полноту анализа. Это обуславливает необходимость создания средств семантического анализа для повышения эффективности обработки результатов высокопроизводительных транскриптомных (Beissbarth Т., 2006) и протеомных экспериментов (UniProt Consortium, 2009).

В настоящее время автоматическая интерпретация результатов высокопроизводительных экспериментов проводится в основном с использованием общедоступных баз данных и баз знаний, таких, как UniProt (Burgoon L.D., Zacharewski T.R., 2008), энциклопедия метаболических путей KEGG (Kanehisa M. et al, 2008) или система онтологии генов Gene Ontology (GO, Ashburner M. et al, 2000). В основе онтологии генов GO лежит семантическая сеть - формализованное описание объектов и явлений молекулярной биологии в виде ориентированного графа. Вершинами графа являются объекты предметной области (гены или белки), а ребра задают отношения между ними. В системе GO для обозначения объектов поддерживается контролируемый словарь молекулярно-биологических терминов. С использованием словаря формируются аннотации генов, и, если гены выполняют сходную функцию или участвуют в одном биологическом процессе, то соответствующие им аннотации содержат одинаковые термины (Beissbarth Т., 2006).

Повсеместное применение системы GO для интерпретации результатов транскриптомных и протеомных экспериментов привело к осознанию ее недостатков (Zheng В., Lu X., 2007). Во-первых, белкам в составе одного метаболического или регуляторного пути зачастую присваиваются разные аннотации, что затрудняет их использование для автоматической обработки данных. Во-вторых, анализ только аннотаций не всегда позволяет выявить биологический смысл анализируемого явления. В связи с этим, авторы ряда работ предлагают проводить семантический анализ функциональных взаимосвязей генов и белков, напрямую обращаясь к публикациям (Ананько Е,А. с соавт., 2000; Homayouni R., et al., 2005; Bundschus M. et al., 2008).

Так, в работе (Homayouni R., et al., 2005) с применением семантического индексирования рефератов MEDLINE проводили кластерный анализ генов для

аннотирования генома человека. Bundschus и соавторы (Bundschus M. et al., 2008) предложили метод автоматического распознавания наименований заболеваний в текстах статей и определили таким образом ассоциативные связи между 4939 генами и 1745 нозологическими формами. В работе (Raychaudhuri S., Altman R.B., 2003) семантическую метрику применяли для идентификации функциональных кластеров генов, при этом чувствительность предложенной метрики при сравнения с данными системы GO составила 96%. Этот подход получил развитие в работе (Zheng В., Lu X., 2007), где тематическая декомпозиция научных статей позволила получить графы, узлами которых являются не только белки, но и понятия молекулярной биологии -например, апоптоз. Наряду с описанием новых вычислительных подходов в вышеуказанных работах отмечается важность автоматического распознавания в текстах анализируемых документов специальных терминов, в том числе названий белков (Jenssen Т.К. étal, 2001).

Постоянное увеличение количества научных статей в области биомедицины все больше усложняет поиск необходимой исследователю информации (Stapley В., Benoit G., 2000). Сложности обработки такого рода данных без использования автоматизации особенно очевидны, если речь идет об анализе информации о функциях белков и генов, идентифицированных в результате высокопроизводительных экспериментов.

В данной работе рассматривается методика сопоставления результатов высокопроизводительных протеомных экспериментов с информацией, представленной в виде множества рефератов научных публикаций в базе MEDLINE. В работе используются как публикации, найденные контекстным поиском по названию белка (релевантные), так и наиболее близкие им по смыслу (родственные). Предлагаемая методика основана на оценке семантической связности между белками, которая рассчитывается как функция от числа одинаковых релевантных или родственных публикаций, найденных для двух белков. Вычисленные значения семантической связности заносили в матрицу семантического сходства, которая отображается в виде неориентированного графа. Полученные в составе семантического графа изолированные подграфы сопоставляли с распределением белков по разделам базы данных KEGG и по категориям системы GO.

Целью работы являлась разработка метода представления информации о взаимосвязях между белками в виде семантической сети, построенной на основе автоматического анализа научных текстов. Для достижения цели решались задачи:

1. для каждого из белков выборки, состоящей из 5-ти произвольно отобранных метаболических путей, сформировать специфичный семантический профиль релевантных публикаций;

2. дополнить полученные профили родственными публикациями, найденными в результате автоматической оценки смыслового сходства документов;

3. рассчитать меру семантической связности между белками как функцию пересечения множеств публикаций, входящих в состав релевантных и родственных профилей. На основе рассчитанной меры семантической связности построить семантическую сеть, отражающую белок-белковые взаимосвязи;

4. выделить в полученной семантической сети изолированные подграфы и сравнить их с распределением белков по разделам базы данных метаболических путей KEGG и по категориям онтологии генов GO.

1.2. Научная новизна и практическая значимость

Новизна данной работы по сравнению с аналогичными подходами (Raychaudhuri S. et al., 2002; Plake С. et a/., 2006) заключается в том, что мера семантической связности между белками определяется на основе смысловой близости относящихся к белкам документов. Для смыслового сравнения документов применяется алгоритм поиска родственных публикаций, представленный в библиографической системе PubMed [.http://www.ncbi.nlin.nih.gOv/piibmed/.1. Применение поисковых запросов обеспечивает возможность динамической актуализации семантической сети белков по мере увеличения количества публикаций, депонируемых в базе данных MEDLINE. Впервые показано, что рассчитываемую системой PubMed оценку смыслового сходства документов можно использовать для автоматизированного выявления взаимосвязей между белками и конструировать семантические сети, подграфы которых совпадают с разделами базы данных KEGG и с категориями системы GO.

Практическое применение разработанного подхода в научных исследованиях обусловлено интуитивно понятной схемой его работы. Поиск в базе данных MELDINE информации об идентифицированных белках в настоящее время широко используется для интерпретации результатов высокопроизводительных экспериментов в области протеомики. Разработанный подход позволяет автоматизировать поиск релевантных публикаций и существенно ускорить получение обобщенного представления о распределении сотен идентифицируемых в ходе протеомного эксперимента белков по изученным биологическим процессам.

Для иллюстрации возможностей практического применения предлагаемого подхода были установлены взаимосвязи между белками, упомянутыми в журнале Nature. Для 260 таких белков с использованием ресурса PubMed отобрали родственные по смыслу публикации, вышедшие в разных журналах. Содержащуюся в этих публикациях информацию обобщили по принципу: чем больше родственных

публикаций найденно в системе PubMed для двух белков - тем выше степень семантической взаимосвязи между ними. Получили семантическую сеть, отображающую основные белки, которые обсуждались в Nature за последние два года. В составе полученных изолированных подграфов семантической сети были выявлены белки, связанные с развитием онкологических и аутоиммунных заболеваний, а также белки апоптоза. Таким образом, за 3 часа компьютер обработал в сумме более 62 тыс. публикаций из разных журналов и сгенерировал дайджест журнала Nature, выявив приоритеты современной молекулярной биологии.

1.3. Апробация работы

Основные положения диссертационной работы докладывались и обсуждались в ходе следующих конференций: "Информационно-вычислительные технологии в науке, Москва, 2005", "XIII Российский национальный конгресс «Человек и Лекарство», Москва, 2006", "XV Российский национальный конгресс «Человек и Лекарство», Москва, 2008", "Международный конгресс «Протеом человека», Сеул, 2007"; "Международный конгресс «Протеом человека», Амстердам, 2008", "Международный конгресс «Геномика, протеомика, биоинформатика и нанобиотехнологии для медицины», Москва, 2008".

1.4. Основные положения, выносимые на защиту

1. Содержащиеся в базе данных UniProt наименования белковых молекул могут использоваться для автоматического поиска релевантных для заданного белка статей в системе PubMed/MEDLINE.

2. Родственные публикации, предоставляемые системой PubMed согласно критерию смыслового сходства документов, содержат дополнительную информацию о взаимосвязях между белками, которая отсутствует в релевантных публикациях.

3. Для выборки, включающей 150 белков из 5-ти различных метаболических путей, построена семантическая сеть, узлы которой являются белками, а ребра отражают меру семантической связности, пропорциональную мощности пересечения множеств ассоциированных с белками публикаций.

4. Подграфы в составе семантической сети согласуются с распределением белков по разделам базы данных метаболических путей KEGG и по категориям онтологии генов GO.

1.5. Публикации

Материалы диссертационной работы отражены в 14 публикациях: в 4 статьях и 10 публикациях в сборниках докладов научных конференций.

4

1.6. Объем и структура диссертации

Диссертация изложена на 105 страницах машинописного текста, включая 8 таблиц и 16 рисунков. Состоит из глав: «Введение», «Обзор литературы», «Материалы и методы», «Результаты и обсуждение», «Заключение», «Выводы», «Список литературы».

2. МАТЕРИАЛЫ И МЕТОДЫ ИССЛЕДОВАНИЯ

Реферативная база данных. В работе использовали реферативную базу данных MEDLINE. Доступ к рефератам осуществляли через поисковый сервер PubMed.

Поиск контекстной строки t проводили путем направления к серверу PubMed запроса Q(t) по протоколу HTTP: «entrez?db=pubmed& cmd=search&term=7'». Различия между строчными и прописными буквами в поисковой строке не учитывали. Каждой отвечающей запросу 0(7) библиографической записи MEDLINE сопоставляли релевантный идентификатор PubMed, далее обозначаемый pmid. Для релевантного идентификатора pmid из поля «Related Links» загружали множество сходных по тематической направленности (родственных) публикаций: Q(pmid) = {pmid'j.

Выборку белков М формировали на основе базы данных KEGG (Kanehisa М. et а!., 2008). В состав выборки включали белки, относящиеся к метаболическим путям из разных разделов этой базы данных. Выбор разделов осуществляли случайным образом, при этом единственным критерием служило наличие более 15 белков в выбранном метаболическом пути. В итоге отобрали 150 белков, включая 44 белка, относящихся к метаболизму жирных кислот, 32 белка - к метаболизму аргинина и пролина, 18 белков -к биосинтезу гепаран сульфата, 35 белков, участвующих в репликации ДНК и 21 белок метаболизма азота. Коды доступа белков, присвоенные в базе данных UniProt (далее используется обозначение «мл») использовали в качестве идентификаторов. Для белка с кодом доступа ип определяли множество {рп}и„ альтернативных названий.

Мера семантического сходства между белками. Каждый белок из выборки М характеризовали с помощью семантического профиля, представляющего собой множество идентификаторов релевантных публикаций Р„„. Релевантные публикации определяли путем направления к серверу PubMed запроса Q(/), где в качестве поискового термина / указывали обозначения белка из множества {рп}и„:

Pun =Q({Pn}un) = Q('Pni ORpn2...ORpnj') = {pmid}un

В результате пересечения множества релевантных публикаций, найденных для белка а - Р„, и множества релевантных публикаций, найденных для белка Ъ - Рь получали множество РаЬ совпадающих публикаций для двух белков а и Ь:

РаЬ=Ра^РЬ (2)

Каждому белку из выборки М с использованием выражения (1) сопоставляли множество идентификаторов родственных публикаций !*„„:

R

un

= Q({pmid}un) = |Q(pmid1),Q(pmid2),Q(pmid ,)| = {pmid'}un (3)

При объединении множества РаЬ, содержащего идентификаторы одинаковых публикаций для двух белков а и Ь, с множеством родственных публикаций R(Pah), содержащим близкие по смыслу публикации к публикациям из множества Раь> получали множество Р;

P = PabuR(Pab> (4)

Для белка с кодом ип из выборки М семантический профиль S„„ для случая родственных публикаций формировали следующим образом: из множества всех родственных публикаций для этого белка Ruc исключали множество публикаций Р, включающих названия одновременно двух белков из М, а также родственные к таким публикациям статьи R(P„b):

S = R -Р ^

un un yJ>

Аналогично выражению (2), множеством Sab обозначали пересечение семантических профилей, построенных для двух белков а и b с использованием родственных публикаций:

Sab=SanSb (6)

Меру семантического сходства Т(а,Ь) между двумя белками а и b вводили с использованием нормировки Танимото (Rogers D.J., Tanimoto Т.Т., 1960) исходя из мощностей множеств РяЬ, Р„ и Рь (или Sab, S„ и Sb):

|р , I Is , I

T(a,b)=-рОЦ-^ T'(a,b) =---(7)

lPal + |Pb|-|Pab| lSal+|Sb|-|Sab|

Построение и анализ семантической сети. Значения семантического сходства T(iJ) рассчитывали для каждой пары белков (ij) из выборки М согласно формуле (7). При заданном пороговом значении сходства / определяли элементы матрицы смежности L, в которой единица обозначала наличие ребра, соединяющего соответствующие белки в графе, ноль - его отсутствие:

_ fl.T(i, j) > X ij jo,T(i,j)<X

Матрицу смежности визуализировали в виде неориентированного невзвешенного графа с использованием программы Gvedit [http://www.graphviz.org/]. На графе определяли изолированные подграфы, причем подграфы, состоящие из единственной вершины, исключали из рассмотрения. Пороговое значение семантического сходства / подбирали так, чтобы среднее число вершин в одном подграфе и количество подграфов было максимально. Для подграфов с количеством вершин п>5 вероятность случайного вхождения в состав подграфа х белков, относящихся к одному метаболическому пути, рассчитывали на основе гипергеометрического распределения (Zheng В., Lu X., 2007):

п

где М - общее количество белков в выборке, а К - количество белков, относящихся к данному метаболическому пути.

3. ОСНОВНЫЕ РЕЗУЛЬТАТЫ

3,1. Контекстный поиск названий белков в рефератах статей

Задача идентификации обозначений белков в текстах рефератов научных публикаций была решена с использованием информации из номенклатурного подраздела белковой базы UniProt (UniProt Consortium, 2009). Из базы данных UniProt загружали рекомендуемые кураторами ресурса обозначения белков, собранные в полях «Alternative names» и «Synonyms». Обозначения белков включали в состав поискового запроса с использованием логического оператора «ИЛИ» и сформированный запрос направляли в PubMed. Полученное в результате обработки запроса множество идентификаторов библиографических записей MEDLINE рассматривали как семантический профиль белка, составленный по релевантным публикациям.

Специфичность семантического профиля по отношению к определенному белку определяется тем, насколько указанные в ресурсе UniProt обозначения белков совпадают с наименованиями белков, используемыми авторами статей. В результате автоматической обработки поисковых запросов возможно появление артефактов, поскольку используемая для обозначения белка аббревиатура может совпадать с общеупотребительными или специальными терминами, не являющимися названиями биомакромолекул. Например, одним из сокращенных названий ингибитора транскрипционного фактора NF-kappa-B (код Q9BYH8) является слово «MAIL»

СКСМ-К р(х | М,К,п) = х "7х

(9)

(Molecule possessing Ankyrin repeats Induced by Lipopolysaccharide), которое встречается в большинстве рефератов при указании адреса для переписки.

Достоверность автоматического определения названий белков в текстах рефератов оценивали путем сравнения результатов поиска в системе PubMed с опубликованными в литературе данными о частоте употребления названий белков в статьях по протеомике (Petrak J. et al., 2008). Из базы данных UniProt загружали коды доступа для 11,5 тыс. записей с меткой «evidence at protein level» (метка обозначает, что экспрессия соответствующих белков установлена экспериментальными методами). Практически все отобранные записи содержали несколько названий для одного белка. Только в 6 случаях из 11,5 тыс. записей указано единственное обозначение белка; для 7 белков известно более 20 синонимов, а у одного белка - интерлейкина-8 - существует 42 альтернативных названия. Для большинства (61%) белков в базе данных UniProt указано не более 3-х обозначений. Суммарное количество обозначений белков во всех загруженных из UniProt записях составило величину порядка 30 тыс. терминов, включая аббревиатуры.

В работе (Petrak J. et al., 2008) был опубликован список ТОР15, который в данной работе используется для оценки качества автоматического определения названий белков. В список ТОР 15 вошли белки, встречающиеся с высокой частотой в 99 научных статьях в области протеомики за период 2004-2006 г.г. В текстах этих статей был произведен контекстный поиск обозначений белков, загруженных из базы данных UniProt. Для каждого белка подсчитывали количество публикаций, в которых было найдено как минимум одно текстуальное совпадение с соответствующими данному белку альтернативными или синонимичными обозначениями. Результаты подсчета, выраженные как частота встречаемости белка в выборке из 99 публикаций, приведены в таблице 1 в сравнении со значениями, ранее полученными аналогичным образом для выборки ТОР 15. Специфичность распознавания названий белков оценивали путем экспертного анализа контекста, в котором упомянут найденный в автоматическом режиме термин.

В таблицу 1 вошли названия белков, упомянутые с частотой встречаемости выше 5% в статьях по протеомике. При их сопоставлении со списком ТОР 15 видно, что 12 белков (80%) совпадают. Одно из разночтений несущественно: в таблице 1 объединены пероксиредоксины 1 и 2, а в работе (Petrak J. et al., 2008) эти белки учтены раздельно. Два других, не выявленных автоматической процедурой белка, - пируват-киназа и ингибитор диссоциации ГДФ. Разночтения связаны с несовпадением обозначений белков, используемых в записях UniProt и текстах статей. Например, в записи UniProt с кодом Р52565 указано единственное обозначение «RHO GDP-DISSOCIATION

INHIBITOR», при этом в статьях этот белок упоминается в форме сокращений: «RHO-GDI», «RHO GDI» или «GDIR».

В таблице 1 есть 3 белка, которые отсутствуют в списке сравнения ТОР 15: белок теплового шока 60 кДа, глицеральдегид-3-фосфат дегидрогеназа и сывороточный альбумин (отмечены в таблице курсивом). Экспертный анализ контекста показал, что выявление дополнительных белков в результате автоматического поиска связано с тем, что список ТОР15 составляли только по приведенным в статьях таблицам, а автоматический поиск проводили по полным текстам статей.

Таблица 1. Список белков, найденных более чем в 5% статей журнала Proteomics за 2004-2006 г.г. Колонки «А» и «ТОР 15» содержат результаты автоматического и экспертного поиска, соответственно. Курсивом отмечены белки, выявленные только в результате автоматического поиска, но отсутствующие в ТОР15.

Ля

Код доступа в UniProt

Название белка

Частота, %

TOP1S

1 Р06733 Альфа-енолаза

2 Р60174 Триозофосфатизомераза"

Р04083, Р07355, Аннексины (А1, А2, А4, А5)

Р09525, Р08758

Пероксиредоксиныа)

4 006830, Р32119 (пероксиредоксин 1,

пероксиредоксин 2)

5 Р10809 Белок теплового июка 60 кДсР

6 Р04406 Гяицероальдегид-З-фосфат дегидрогеназа

7 Р62937 Пептидилпролил-цис-транс-изомераза А

(циклофилин А)"'

8 Р08670 Виментин"

9 Р02768 Сывороточный альбумин

10 Р24539 АТФ-синтаза, Р-тип, субъединица В"

11 Р07339 Катепсин О"

12 Р11021 СЯР78

13 РП142 НБС70

14 Р04792 Белок теплового шока бета-Г» (1КР27)

15 Р05787 Кератин, тип 2"'

16 26

36

42 18 12

10 23

13 12 21 II 15 21

14

31 22

17

20

15

16 14

18 34 17

а) Название белка указано в рефератах публикаций.

Сопоставление с опубликованными данными показало, что сведения базы данных UniProt в целом пригодны для поиска релевантных статей по названиям белков. Контекстным поиском для 150 отобранных из разделов KEGG белков было найдено 65,9

тыс. релевантных рефератов. Идентификаторы рефератов вошли в состав семантических профилей каждого белка. В среднем профиль содержал 445 идентификаторов релевантных статей, причем для >40% белков в семантический профиль входило менее 100 статей.

3.2. Родственные публикации и матрица семантического сходства

Родственные публикации были получены в результате расчета системой PubMed критерия смыслового сходства документов. Для определения смыслового сходства в системе PubMed применяется методика, основанная на сравнении относительных частот встречаемости слов в сопоставляемых текстах. После выполнения поискового запроса по идентификатору pmid, сервер PubMed отображает Веб-страницу, где под заголовком «Related Links» выведено пять гипертекстовых ссылок на родственные публикации. Для них извлекали библиографические идентификаторы pmid'. Таким образом, для каждого белка было получено два семантических профиля: один по релевантным публикациям и один - по родственным.

Мера семантической связности отражала количество одинаковых публикаций в семантических профилях двух белков. Попарным пересечением профилей релевантных публикаций было получено множество идентификаторов рефератов, в текстах которых совместно встречаются названия, по крайней мере, двух белков из выборки. Это множество состояло из 9838 элементов и обозначалось РяЬ согласно выражению (2). При создании семантического профиля по родственным публикациям учитывали условие (4), в результате чего в профиль включали только те идентификаторы, которые не вошли во множество Р. При таком условии для 65,9 тыс. релевантных рефератов из системы PubMed было отобрано 196,7 тыс. идентификаторов родственных статей. В среднем семантический профиль по родственным рефератам содержал 1525 идентификаторов pmid', при этом для 40% белков в составе профиля насчитывалось менее 400 статей.

Расчет меры семантической связности был произведен для каждой пары белков с использованием отдельно профилей по релевантным и по родственным публикациям. Полученные две матрицы попарного семантического сходства были симметричными относительно диагонали и содержали (148* 147)/2 = 10'878 элементов1, соответствующих парам белков. Из этого количества значений для случая релевантных публикаций 1147 ячеек матрицы имели ненулевые значения. Таким образом, для -10% пар белков нашлась как минимум одна публикация, в реферате которой встретились названия обоих белков. Для родственных публикаций доля заполненных ненулевыми

1 - матрицу рассчитывали без учета диагонали для 148 уникальных белков (два белка входили одновременно в состав двух метаболических путей).

значениями ячеек матрицы семантического сходства оказалась выше более чем в три раза и составила -34%.

Использование родственных публикаций для расчета семантического сходства позволило установить 72% взаимосвязей, которые в явном виде содержались в релевантных публикациях. Кроме того, обработка родственных публикаций выявила дополнительные сведения о семантической связности между 2829 парами белков (-25% от общего количества пар), для которых информация о взаимосвязях отсутствовала в рефератах релевантных публикаций. Например, белки Р49189 (альдегид дегидрогеназа) и A8YXX4 (глутамин синтаза) совместно не встречаются ни в одной публикации MEDLINE, однако, в родственных профилях этих белков обнаружили 5 одинаковых статей.

Для пар белков с наиболее высокими значениями семантического сходства был проведен выборочный анализ родственных публикаций. Оказалось, что семантическая связность белков с кодами 015460 и Р13674 обусловлена тем, что они функционируют как субъединицы в составе комплекса пролил-4-гидроксилазы (Annunen P. et al., 1997). Два других белка (Q7LGA3 и 014792) связаны, поскольку оба являются ферментами-сульфотрансферазами. Один из них (Q7LGA3) катализирует перенос сульфатной группы с 3'- фосфоаденозин-5'-фосфосульфата в 2-ОН позицию гексуроновой кислоты (Xu D. et al., 2007), а другой (014792) переносит сульфатную группу в 3-ОН позицию при биосинтезе гепаран сульфата (Chen J. et al., 2003).

Из приведенных примеров видно, что сравнение профилей родственных рефератов позволяет выявить скрытое семантическое сходство, отражающее взаимодействие белков либо как субъединиц в составе функционального комплекса, либо взаимосвязь белков в цепочке биохимического синтеза.

Доля заполненных ячеек в матрице семантического сходства пропорциональна количеству белковых пар, для которых пересечение семантических профилей содержит хотя бы один элемент. По такому характеристическому показателю было проведено сравнение двух типов выборок белков из базы данных KEGG. В первом случае в выборку случайным образом включали белки, относящиеся к одному метаболическому пути, а во втором - к разным метаболическим путям. Для каждой выборки на основе сравнения профилей родственных и релевантных публикаций рассчитывали число взаимосвязанных белков. Результаты сравнения 50 выборок каждого типа представлены на рисунке 1.

□ белки, относящиеся к одному метаболическому пути Ш белки, относящиеся к разным метаболическим путям

п П п П п

О Ь Ю 15 20 25 30 35 42 45 50 55 60 65 70

Доля заполненных (ненулевых) ячеек матрицы семантического сходства (%)

Рисунок 1. Гистограммы уровня заполненности матриц семантического сходства (%), полученные для двух типов выборок белков из базы данных КЕСв при пересечении профилей релевантных публикаций.

Из рисунка 1 видно, что для метаболически-связанных белков уровень заполнения матрицы семантического сходства значениями выше, чем для белков, входящих в различные метаболические пути. Пик распределения для последних приходится на 10%, то есть для большинства произвольно сформированных выборок белков заполнено только 10% матрицы сходства. В то же время для белков, отнесенных в базе данных КЕвО к одному пути, уровень заполненности матрицы сходства достигает в некоторых случаях 65%. Полученные значения вполне согласуются с результатами, представленными на стр.10: для выборки, состоящей из белков 5-ти различных метаболических путей число заполненных ячеек в матрице семантического сходства также составляет около 10%. Это свидетельствует о том, что семантическая связность между белками внутри одного метаболического пути существенно выше семантической связности между белками, принадлежащими разным метаболическим путям.

3.3. Семантические сети белков

Для графического отображения связей между белками матрицу семантического сходства преобразовали в матрицу смежности, заменяя по формуле (8) все значения ниже порога I на нули, а выше или равные - на единицы. Матрица смежности была визуализирована в виде неориентированного графа с невзвешенными ребрами в программе 0\ес1п.

На рисунке 2 показана семантическая сеть, построенная для белков пяти метаболических путей человека с использованием релевантных публикаций. В составе сети можно выделить 10 изолированных подграфов, из которых 4 подграфа, обозначенные на рисунке буквами, содержат 8 и более вершин. Такое распределение вершин по крупным изолированным подграфам наблюдалось при пороговом значении семантического сходства / = 0,0045.

Состав показанных на рисунке 2 подграфов «А», «Б» и «Г» согласуется с предлагаемым в базе данных KEGG распределением белков по метаболическим путям. В подграфе «А» - 10 вершин и все они соответствуют карбоангидразам, отнесенным согласно KEGG к метаболизму азот-содержащих соединений. Другая часть этого метаболического пути, представленная 3 белками, вошла в состав подграфа «В». Эти три белка принимают участие в метаболизме аммиака, причем два из них (коды Р00367 и Р31327 на рис. 2) относятся не только к метаболизму азот-содержащих соединений, но и к биосинтезу аргинина и пролина. Белок с кодом Р31327 является карбамоил-фосфатсинтетазой (КФ 6.3.4.16) и представляет собой связующее звено между метаболизмом азот-содержащих соединений и циклом мочевины, который согласно номенклатуре KEGG, отнесен к разделу «метаболизм аминокислот».

Подграф «Б» содержит 29 белков, принимающих участие в репликации ДНК. В данном случае белки образуют функциональные комплексы за счет физического взаимодействия друг с другом, а не являются сопряженными звеньями метаболической цепочки. Механизм репликации ДНК эукариот опубликован в деталях, поэтому на семантической сети нашли отражения все его элементы: структурные компоненты комплекса ДНК-полимеразы (коды Р09884 и Q14181) и ДНК-праймазы (коды Р49643 и Р49642), белки репликационных комплексов (коды A4D2J4 и Р56282, соответственно), белки в составе пререпликационного геликазного комплекса МСМ (см. рис. 2).

Основная часть подграфа «Б» представлена белковыми факторами репликации (коды Q13156, A8KY9, A4D105), в том числе факторами репликации С («clamp loader», коды Р35250, Р40938, Р35251). ДНК лигаза и ядерный антиген пролиферирующих клеток (коды B2RAI8 и B2R897, соответственно) находятся на периферии подграфа.

Подграф «В» смешанный: в него вошли белки из разных разделов базы данных KEGG. Всего в составе подграфа 55 белков, часть которых относится к метаболизму жирных кислот, а другая часть - к метаболизму аргинина и пролина. Белки из раздела 01103 «метаболизм липидов» базы данных KEGG распределились между двумя областями, обозначенными «В2» и «ВЗ» на рисунке 2. В области «В2» находится 14 белков: 6 апкогольдегидрогеназ и 8 альдегиддегидрогеназ. Область «ВЗ» представлена 26 белками, в числе которых ферменты, участвующие в деградации жирных кислот, -

ацетил-коА-ацетилтрансферазы (В2116Н1 и Р42765), еноил-коА-гидратазы (С)58Е25, Р30084), ацил-коА дегидрогеназы и гидроксиацил-коА-дегидрогеназы.

а(» ниазя ХО^иири»

:' fikr.Ul 4 \

■■ ' ч \

'•.....• I

«зяйц.* •из»!..*

; гашгс? о»гя>_г

I . мсш / :

оршпин-карбамон.ч-трсшсфсрам

арсннкносукнниаюшпспиа яргннмносукшшитлназа

• фкш.гч / \

. / \ / ^

'. ', кйгям'' ; ШМ^.Ф-г*. етял

•эти.* -Фхтябж^

.1 /\

: ^«мдаги

«яи IV

Г;

' Е2К4Й1.11

I:

-вз

И34?«_2

/

мигай '.' . .' /Л —/ /

• ■ ^ \ :

4 ^ \ \

/ ^тпл

■с^зэг.^; ^

-В2

В1

ЧИШ,;

Рисунок 2. Семантическая сеть белков пяти метаболических путей, полученная с использованием оценки семантического сходства по релевантным публикациям. Вершины обозначены «ххххх__у», где «ххххх» - код доступа белка в базе данных ишРпЯ, «у» - номер метаболического пути: 1 - метаболизм жирных кислот, 2 -метаболизм аргинина и пролина, 3 - биосинтез гепарансульфата, 4 - репликация ДНК и 5 - метаболизм азот-содержащих соединений. «Б1» - геликазный комплекс МСМ; «В1» - цикл мочевины (см. врезку); «В2» и «ВЗ» - белки метаболизма липидов.

В подграф «В» вошли все ферменты цикла мочевины, включая аргининосукцинатсинтетазу (код Р00966), аргининосукцинатлиазу (Р04424), аргиназу (Р05089), орнитинтранскарбамоилазу (А8К9Р2). Также в состав этого подграфа вошла NO-синтаза (Р29475), катализирующая в цикле мочевины превращение аргинина в цитруллин с образованием NO (Husson A. et al., 2003).

Подграф «Г» представлен 18 ферментами биосинтеза гепаран сульфата -гликозаминогликана, по структуре сходного с гепарином. Биосинтез гепарансульфата осуществляют различные виды гликозилтрансфераз, сульфотрансфераз и эпимераз (Nadanaka S., Kitagawa H., 2008). Представители соответствующих подклассов ферментов наблюдаются в составе подграфа «Г»: коды 043909 и Q93063 - N-ацетилглюкозаминил трансферазы (КФ 2.4.1), коды 095803 и Q9H3R1 - N-деацетилаза и N-сульфотрансфераза, код Q9Y278 -глюкозамин сульфотрансфераза (КФ 2.8.2.29).

На рисунке 3 приведен семантический граф, полученный на основе родственных публикаций. Как следует из выражения (5), семантический профиль родственных публикаций не содержал рефератов, в которых контекстным поиском одновременно были определены названия двух белков из выборки. Поэтому, появление одинаковых идентификаторов pmid' в семантических профилях двух разных белков указывает, что соответствующие публикации содержат семантическую связность в неявном виде.

Из рисунка 3 видно, что определение скрытой семантической связности между белками возможно с использованием встроенных функций системы PubMed, поскольку при использовании родственных публикаций структура семантической сети сохранилась. Изолированные подграфы, обозначенные на рисунке 3, совпали по своему составу с распределением белков по метаболическим путям.

В отличие от сети, полученной для релевантных публикаций (ср. рис. 2 и рис. 3), построенный по родственным семантическим отношениям граф содержит большее число подграфов - 15. Среди этих подграфов можно выделить 6 крупных, содержащих более 5 вершин (эти подграфы обозначены буквами на рис. 3). Белки, участвующие в метаболизме жирных кислот, представлены в подграфах «А» (15 вершин) и подграфе «Г» (21 вершина). В подграфе «Д» присутствуют карбоангидразы, а в состав подграфа «Е» вошли 6 белков метаболизма аргинина и пролина: пирролин-5-карбоксилат редуктазы (А8К798 и Р32322), альдегиддегидрогеназы (Р49189 и Р30038), орнитин-аминотрансфераза (Р04181) и пролиндегидрогеназа (A6NF53). Белки, принимающие участие в биосинтезе гепарансульфата, сгруппировались в подграфе «Б», содержащем 16 вершин. Состав подграфа совпадает с аналогичным подграфом «Г» на рисунке 2.

При выбранном уровне отсечения (/=0,009) на графе для родственных публикаций появилось 11 взаимосвязей, которых не было на графе для релевантных

,* ШШЛЛЛ \

Рисунок 3. Семантическая сеть белков пяти метаболических путей, полученная с использованием родственных публикаций. Обозначения вершин - в соответствии с рисунком 2. Жирным пунктиром показаны ребра, отсутствующие на рисунке 2. На врезке указаны белки геликазного комплекса МСМ.

публикаций. Из них 5 новых взаимосвязей выявлены между ферментами биосинтеза гепарансульфата. В частности, появились ребра, соединяющие белок ЕХТ1, гепаран-сульфат сульфотрансферазу и экзостозин-подобный белок. Эти новые взаимосвязи обусловлены ведущей ролью нарушений синтеза гепарансульфата в хондроцитах и

остеобластах при развитии тяжелого наследственного заболевания костной ткани -экзостоза (Ыас1апака Б., Kitagawa Н., 2008).

В составе подграфа «А» установилась ранее на выявленная в ходе анализа релевантных публикаций взаимосвязь между ферментами алкоголь- и альдегиддегидрогеназой, участвующими в метаболизме алкоголей. Две другие новые взаимосвязи в составе подграфа «А» соединяют альдегиддегидрогеназу, входящую в состав пути метаболизма липидов, с ферментами биосинтеза белков. Альдегиддегидрогеназа класса 6 и аргинил-тРНК синтетазой связаны в 42 родственных публикациях. Анализ этих публикаций показывает, что связующим звеном является витамин А (ретинол). Его равновесие с ретиналем регулируется альдегиддегидрогеназой, и одновременно ретинол оказывает стимулирующее воздействие на уровень экспрессии аминоацил-тРНК синтаз.

Одно новое ребро наблюдается в подграфе «В», который объединяет белки репликации ДНК. Взаимосвязь появилась между фактором регуляции репликации МСМ4 и наиболее хорошо охарактеризованным белком этой группы - репликационным белком А, без которого невозможно протекание большинства процессов, в которых расплетается двойная спираль ДНК.

3.4. Сопоставление сетевых подграфов с разделами КЕСв и с аннотациями СО

Для оценки степени соответствия состава изолированных подграфов семантической сети разделам КЕвй или аннотациям онтологии генов вО, по формуле (9) рассчитывали вероятность р случайного объединения белков в один подграф. Значения /><0,05 указывали на неслучайный характер распределения белков по подграфам. В таблице 2 приведены данные о количестве вершин в каждом подграфе, совпадающих с белками одного метаболического пути КЕйС. Видно, что совпадения характеризуются значениями р значительно ниже порогового уровня 0,05. Например, из 29 белков, участвующих в репликации ДНК, в состав одного подграфа вошел 21 белок при анализе релевантных публикаций и 19 белков при анализе родственных публикаций.

Значения р для указанных подграфов составили 1,6*10"25 и 6,4*10"15, соответственно. Для других подграфов значения р находятся в диапазоне от 10"5 до 10"23, то есть подграфы хорошо совпадают с разделами базы данных КЕСО. Это означает, что полученные семантические сети отражают закономерности молекулярных процессов, положенные в основу структуры данных в системе КБвв.

Таблица 2. Сопоставление состава подграфов (ПГ) с распределением белков по разделам базы данных КЕСв. КВ - количество вершин в подграфе, р - вероятность случайного объединения белков одного метаболического пути в подграф._

Распределение белков по метаболическим путям KEGG

ПГ КВ Метаболизм жирных кислот Метаболизм аргинина и пролина Биосинтез гепаран сульфата Репликация ДНК Метаболизм азота Р

44 33 18 35 21

«А»"1 10 0 0 0 0 10 2,8x10'°

«Б» 29 0 0 0 21 0 1,6x10"25

«В»" 55 39 15 0 0 1 5,8x10"

«Г»" 18 0 0 18 0 0 UxlO"

«А»61 15 12 2 0 0 1 2,2x10"5

«Б»п 16 0 1 15 0 0 8,8х10"2°

«В»6) 21 20 1 0 0 0 7,5х10'2

«Г»6» 19 0 0 0 19 0 6,4х10'15

«д»6' 7 0 0 0 0 7 10"7

«Е»6) 6 1 5 0 0 0 Ю-4

п1Для релевантных публикаций, в соответствии с рисунком 2. °'Дпя родственных публикаций, в соответствии с рисунком

Данные таблицы 2 позволяют указать на соответствие между подграфами, полученными в результате расчета меры семантической связности по релевантным и по родственным публикациям. Раздел «репликация ДНК» базы данных KEGG представлен 35 белками, из которых, как уже указывалось, 21 белок оказался в составе подграфа «Б» (по релевантным) и 19 белков оказались в составе подграфа «Г» (по родственным). Белки раздела «биосинтез гепаран сульфата» образовали подграфы из 18 и 15 белков для случаев релевантных и родственных публикаций, соответственно. Белки, участвующие в метаболизме жирных кислот, образовали один смешанный подграф «Б» из 29 вершин по результатам анализа релевантных публикаций, а для родственных этот состоящий из 44 белков метаболический путь разделился на два подграфа «А» и «Г», суммарное количество вершин в которых - 34.

Для отобранных по базе данных KEGG белков были загружены аннотации согласно онтологии генов GO. Аннотации были найдены только для 128 из 150 белков исходной выборки. В GO аннотации белков подразделяются на три раздела: «клеточная локализация», «биологический процесс» и «молекулярная функция». Из анализируемой выборки в указанные категории вошло 100, 102 и 110 аннотированных белков, соответственно. Для 68% белков присутствовали аннотации в терминах всех трех категорий GO. Для полученной выборки из 128 белков была сконструирована семантическая сеть, объединяющая информацию о релевантных публикациях.

18

Таблица 3 содержит данные, показывающие, что в составе подграфов семантической сети обнаруживаются белки с одинаковыми аннотациями вО. Таблица отсортирована по последнему столбцу, в котором указана вероятность случайного объединения в составе подграфа белков с одинаковой аннотацией СО. Видно, что наибольшая вероятность р=0,0002 получилась для белков, участвующих в транспорте электронов и локализованных в мембране, однако даже это самое высокое значение на два порядка ниже выбранного порога достоверности р<0,05.

В составе одного подграфа наблюдались белки, имеющие одинаковые аннотации по разным разделам онтологии. Например, 22 белка в составе подграфа «Б» (см. рис. 2) участвуют согласно разделу «Биологический процесс» в репликации ДНК, при этом 16 из них локализованы в нуклеоплазме по аннотации в разделе «Клеточная локализация». Аналогично, в подграфе «Г», 9 белков в разделе «Биологический процесс» получили аннотацию «биосинтез гепарансульфата», которая совпадает с классификацией этих белков в базе данных КЕСО.

Все 9 белков, обладающих карбонат-дегидратазной активностью согласно разделу «Молекулярные функции», оказались локализованы в подграфе «А». Согласно базе данных КЕСО, все белки этого подграфа участвуют в метаболизме азот-содержащих соединений. В целом можно отметить, что состав подграфов семантической сети не только хорошо согласуется с метаболическими путями, но и обладает статистически значимой специфичностью в отношении определенных аннотаций 60.

Таблица 3. Распределение белков (М=128), входящих в состав изолированных подграфов, в соответствии с аннотациями 00. К - количество белков с заданной аннотацией в выборке, х - количество вершин с заданной аннотацией в подграфе, р -вероятность, рассчитанная по формуле (9).

ПГ"1 Раздел вО Категория СО К X Р

«Б» БП Репликация ДНК 22 22 1,2*10"

«А» МФ Карбонат-дегидратазная активность 9 9 1,6*1021

«Г» БП Биосинтез гепарансульфата 9 9 5,2*10'14

«Б» Л Нуклеоплазма 16 16 з*ю-"

«Б» МФ Связывание с ДНК 16 16 3*10"

БП Окислительно-восстановительные процессы 30 30 7,3*10""

Л Мембрана 21 13 3,6*10"'

МФ Связывание ионов цинка 21 9 1,5*10'8

л Аппарат Гольджи 10 9 4,8*10""

МФ Связывание АТФ 9 9 3,5*10"''

МФ Образование белковых комплексов 23 14 1,7*10"5

л Митохондрии 13 13 г'Ю"1

МФ Транспорт электронов 15 15 г'ю"1

"'Обозначения подграфов согласно рисунку 2.

4. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Алгоритмический анализ семантической взаимосвязи между парой белков, названия которых встретились в одном реферате, обычно проводится для выявления белок-белковых взаимодействий (Ding J. et al., 2002). Из полученных нами результатов следует, что аналогичный подход может эффективно применяться не только для определения попарных взаимодействий, но и для отображения охватывающих несколько белков сетевых взаимосвязей.

Анализ качества распознавания обозначений белков в текстах научных публикаций показал, что результаты автоматического контекстного поиска на 80% совпадают с опубликованными данными о том, насколько часто тот или иной белок встречается в протеомных статьях. Следовательно, информация из базы данных UniProt может использоваться в поисковых системах для формирования семантических профилей, специфичных для каждого белка. В перспективе можно ожидать увеличения соответствия между используемыми авторами научных статей обозначениями белков и названиями, рекомендуемыми кураторами базы данных UniProt.

Мера семантической связности между белками была введена путем сопоставления ассоциированных с белками профилей публикаций. Явная связность отражала количество релевантных публикаций, в которых названия двух белков встречаются одновременно. Скрытая связность вводилась пропорционально количеству одинаковых для двух белков родственных публикаций, при этом все релевантные публикации, совпадающие для двух белков, исключались из анализа. Родственные публикации не содержат совместного упоминания названий белков, но лежащее в основе оценки родственности публикаций сравнение частот употребления терминов в научных статьях позволяет установить значительную часть семантических отношений между объектами.

Проведенный анализ семантического графа белков, построенного с использованием релевантных публикаций (см. рис. 2), показывает, что предложенная информационная модель отражает существующие в клетке метаболические взаимосвязи между белками. Из таблицы 2 видно, что, в зависимости от метаболического пути, на графе было отображено от 45% (метаболизм аргинина и пролина) до 100% (метаболизм гепарансульфата) входящих в этот путь белков.

Информативность семантической сети существенно не снижается при переходе от релевантных к родственным публикациям (ср. рис. 2 и рис. 3). Группировка белков в изолированные подграфы соотносится со структурой данных в ресурсах KEGG и GO, и носит неслучайный характер, что следует из низких значений вероятности р (см. табл. 2 иЗ).

Наибольший интерес с точки зрения анализа белок-белковых взаимосвязей представляет возможность выявления скрытой (латентной) связности. Обычно для этого применяются специализированные алгоритмы; например, метод скрытого семантического индексирования, основанный на сравнении частот встречаемости терминов в текстах рефератов MEDLINE (Homayouni R. et ah, 2005). В данной работе мы показали, что семантическая сеть (см. рис. 3) может быть получена в результате сравнения идентификаторов релевантных публикаций, выводимых в поле «Related Links» системы PubMed. Следует обратить внимание, что множество родственных публикаций было получено таким образом, что ни в одном реферате одновременно не встречались названия двух любых белков из выборки. Кроме того, из выборки были исключены даже публикации, родственные по отношению к рефератам, где совместно встречаются названия двух белков (см. выражение (5). Несмотря на намеренное обеднение множества родственных публикаций, были получены подграфы, хорошо совпадающие с метаболическими путями (см. табл. 2). Более того, на семантической сети, построенной по родственным публикациям, появились дополнительные ребра. Они отражают такие отношения между белками, которые невозможно выявить контекстным поиском названий белков в системе PubMed.

Неоспоримым преимуществом предложенного в работе подхода является возможность сопоставления результатов широкомасштабных транскриптомных или протеомных экспериментов с текущим уровнем знаний, отраженном в рефератах рецензируемых научных статей. В целом проанализированные в работе семантические отношения между белками не выходят за рамки современного курса лекций по биохимии и молекулярной биологии. В тоже время, расширение предметной области за рамки классических представлений возможно за счет выявления скрытой семантической связности с использованием родственных публикаций.

5. ВЫВОДЫ

1. С использованием номенклатурных обозначений из базы данных ишРкН в автоматическом режиме получены релевантные семантические профили, специфичные для каждого белка. Релевантный семантический профиль представлял собой множество идентификаторов публикаций из ресурса МЕОЬГЫЕ, найденных контекстным поиском в текстах рефератов по наименованиям белков.

2. Множество входящих в состав семантических профилей рефератов расширяется в три раза при включении в него родственных публикаций, предлагаемых автоматическими средствами оценки смыслового сходства документов. За счет родственных публикаций было установлено дополнительно около 3-х тыс. неявных семантических связей между белками из пяти различных метаболических путей базы данных КЕйС.

3. Мера семантического сходства между двумя белками определена как множество рефератов публикаций, совпадающих при сравнении семантических профилей белков. С использованием этой меры получены семантические сети, отображающие взаимосвязи между белками в составе хорошо изученных биохимических и молекулярно-биологических процессов. Семантические сети, построенные на основе сопоставления релевантных и родственных профилей, сходны между собой, причем сравнение родственных профилей позволяет выявить дополнительные семантические взаимосвязи между белками.

4. В составе каждой семантической сети выявлено несколько изолированных подграфов. Показано, что в состав подграфов входят белки, относящиеся к одному метаболическому пути и имеющие одинаковые аннотации в системе онтологии вО, с вероятностью случайного объединения /?<10"3.

6. СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Пономаренко Е.А.. Лисица А.В., Карузина И.И., Мирошниченко Ю.В. Автоматизированное аннотирование функциональных свойств белков надсемейства цитохромов Р450 // Аллергия, астма и клиническая иммунология - 2003 - № 7(8) -95-99.

2. Lisitsa A.V, Ponomarenko Е.А., Karuzina 1.1., Ivanov A.S., Archakov A.I. Balance Sheet for Cytochrome P450 Knowledgebase // In: Proceedings 13-th International Conference on Cytochromes P450 - Prague - 2003 - 67-73.

3. Иванов H.A., Лисица А.В., Пономаренко E.A.. Арчаков А.И. Тематический анализ резюме научных публикаций в области цитохромов Р450 //Сборник материалов Сессии ИВТН - Москва - 2003 - 28-29.

4. Лисица А.В., Мирошниченко 10.В., Пономаренко Е.А. База знаний по цитохромам Р450 // Сборник научных трудов X Российского национального конгресса «Человек и лекарство» - 2003 - 730.

5. Lisitsa A.V., Ponomarenko Е.А.. Gusev S.A., Kuznetsova G.P., Karuzina I.I., Lewi P., Archakov A.I. Cytochrome P450 knowledgebase: structure and functionality //In: Proceedings 14th International conference on cytochromes P450: biophysics and bioinformatics - Dallas, USA - 2005 - 29-34.

6. Пономаренко E.A.. Лисица А.В., Гусев C.A. База знаний по цитохромам Р450 // Материалы международной школы-конференции молодых ученых «Системная биология и биоинженерия», МАКС Пресс - Москва - 2005 - 50.

7. Пономаренко Е.А... Лисица А.В., Карузина И.И., Гусев С.А. База знаний по цитохромам Р450 // Сборник материалов Сессии ИВТН - Москва - 2006 -32.

8. Ponomarenko Е.А.. Lisitsa A.V., Archakov A.I. Text Mining Tools in Analysis of High-Throughput Data // Материалы конференции CMTPI - 2007 - 135.

9. Ponomarenko E.A., Lisitsa A.V., Archakov A.I. Searching for Related Proteins Using Textomic Approach // Сборник трудов конференции HUPO - 2007 - 103.

10. Ponomarenko Е.А... Lisitsa A.V., Petrak J., Moshkovskii S.A., Archakov A.I. Textomics Tools for Automatically update the Hit-parade of repeatedly identified proteins // Сборник материалов международной конференции GPBNM - 2008 - 36.

11. Пономаренко Е.А., Лисица А.В., Арчаков А.И. Лингвистические методы поиска взаимосвязанных белков // Сборник трудов конференции "Человек и лекарство" -2008-523.

12. Ponomarenko Е.А... Lisitsa A.V., Petrak J., Moshkovskii S.A., Archakov A.I. Automated meta-analysis confirms the Hit-parade of repeatedly identified proteins // Сборник материалов международной конференции HUPO - 2008 - 1669.

13. Пономаренко Е.А., Лисица А.В., Петрак И., Мошковский С.А., Арчаков А.И. Выявление дифференциально-экспрессирующихся белков с использованием автоматического мета-анализа протеомных публикаций.//Биомедицинская химия, 2009 -№55(1)- 5-14.

13a.Ponomarenko Е.А., Lisitsa A.V., Petrak J., Moshkovskii S.A., Archakov A.I. Identification of Differentially Expressed Proteins Using Automated Meta-Analysis of Proteomics-Related Articles //Biochemistry (Moscow) Supplement Series B: Biomedical Chemistry -2009-№3(1)- 10-16.

14. Пономаренко E.A.. Лисица А.В., Арчаков А.И. Лингвистические методы поиска взаимосвязанных белков // Сборник трудов конференции "Математика. Компьютер. Образование" - 2009 - 68.

Содержание диссертации, кандидата биологических наук, Пономаренко, Елена Александровна

1. ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ.

2. ОБЗОР ЛИТЕРАТУРЫ.

2.1. Интеллектуальный анализ биомедицинских текстов.

2.1.1. Распознавание названий белков (генов) в публикациях.

2.1.2. База данных белков UniProt.

2.1.3. Применение ИАТ для выявления белковых взаимосвязей.

2.1.4. Оценка релевантности документов.

2.1.5. База данных MEDLINE и поисковая система PubMed.

2.2. Семантические модели молекулярной биологии.

2.2.1. Онтология генов Gene Ontology.

2.2.2. Энциклопедия метаболических путей KEGG.

2.2.3. UMLS - унифицированная система медицинского языка.

2.3. Семантические сети генов и белков.

3. МАТЕРИАЛЫ И МЕТОДЫ.

3.1. Алгоритм построения и анализа семантических сетей.

3.2. Выборки белков.

3.3. Методика работы с реферативной базой данных.

3.4. Идентификация названий белков.

3.5. Мера семантического сходства между белками.

4. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

4.1. Контекстный поиск названий белков в текстах рефератов.

4.2. Матрица семантического сходства.

4.3. Семантические сети белков.

4.4. Сопоставление сетевых подграфов с разделами KEGG и с аннотациями GO.

4.5. Сопоставление сетевых подграфов с видовой принадлежностью белков.

Введение Диссертация по биологии, на тему "Автоматический анализ научных текстов для создания семантических сетей белков"

Постоянное увеличение количества научных статей в области биомедицины все больше усложняет поиск необходимой исследователю информации [Stapley В., Benoit G., 2000]. Сложности особенно очевидны в случае, если речь идет об анализе информации о функциях белков и генов, поскольку эти данные изложены в свободной форме на естественном языке и плохо поддаются структурированию. Необходимость выполнения широкомасштабного анализа опубликованных сведений о белковых функциях становится особенно актуальной при исследовании молекулярных взаимодействий в клетке.

Функционирование клетки обеспечивается за счет взаимодействия белков, примерами которого являются метаболические и регуляторные пути. Полагают, что взаимодействие белков в биологических процессах можно определить экспериментально с использованием высокоэффективных экспериментов в области транскриптомики [Al-Shahrour F. et al., 2006]. Кластеризация профилей ко-экспрессии генов позволяет сделать только предварительные предположения о молекулярных взаимосвязях, лежащих в основе исследуемого биологического процесса. Проверка предположений проводится в ходе изучения ассоциированной с названиями белков (или кодирующих их генов) научной литературы или с использованием аннотаций в белковых базах данных типа UniProt [Boutet Е. et al., 2007]. Ознакомление с соответствующими литературными источниками занимает длительное время и не всегда обеспечивает полноту анализа. Это обуславливает необходимость создания средств семантического анализа, предназначенных для повышения эффективности обработки результатов высокопроизводительных транскриптомных [Beissbarth Т., 2006] и протеомных экспериментов [UniProt Consortium, 2009].

Результаты транскриптомных и протеомных экспериментов в общем случае представляют собой соответственно либо выборки генов с измененным уровнем экспрессии или списки идентифицированных белков. Обработка экспериментально полученных выборок должна проводиться с учетом современного уровня знаний в области молекулярной биологии. Автоматизация процесса сопоставления экспериментальных данных с уровнем знаний в предметной области возможна при условии их формализации. Необходимый уровень формализация знаний поддерживается за счет получения экспертной оценки профильных научных публикаций. Результаты экспертной оценки размещаются в общедоступных базах данных и базах знаний, например, таких как база данных метаболических путей KEGG или база данных онтологий генов Gene Ontology (далее — GO, Harris М. et al., 2004).

В основе онтологии генов лежит семантическая сеть - формализованное описание объектов и процессов молекулярной биологии. Семантическая сеть представляет собой ориентированный граф, вершинами которого являются объекты предметной области, то есть гены и белки, а ребра задают отношения между ними. В системе GO поддерживается контролируемый словарь молекулярно-биологических терминов. С использованием этих терминов формируются аннотации генов, причем если гены выполняют сходную функцию или участвуют в одном биологическом процессе, то соответствующие им аннотации содержат одинаковые термины [Beissbarth Т., 2006].

Повсеместное применение системы GO для интерпретации транскриптомных и протеомных данных, привело к осознанию ее недостатков [Zheng В., Lu X., 2007]. Во-первых, белкам в составе общего метаболического или регуляторного пути зачастую присваиваются разные аннотации, что затрудняет их использование для автоматической обработки данных. Во-вторых, анализ только аннотаций, без изучения статей, не всегда позволяет понять биологический смысл анализируемого явления. В связи с этим, авторы ряда работ предлагают проводить семантический анализ функциональных взаимосвязей генов и белков, напрямую обращаясь к публикациям [Ананько Е. с соавт., 2000; Homayouni R., et al., 2005; Bundschus M. et al, 2008].

В работе [Homayouni R., et al, 2005] с применением семантического индексирования рефератов MEDLINE проводили кластерный анализ генов с целью аннотирования генома человека. Были получены кластеры генов, характеризующиеся выраженной семантической связностью, однако, не был исследован вопрос, насколько хорошо эти кластеры соотносятся с информацией в системах KEGG или GO. Другие исследователи предложили методы определения семантической связности на основе ассоциированных с белками биомедицинских статей. Bundschus и соавторы [Bundschus М. et al., 2008] предложили метод автоматического распознавания наименований заболеваний в текстах статей и определили ассоциативные связи между 4939 генами и 1745 патологиями. Рейчардхаури и Альтман [Raychaudhuri S., Altman R., 2003] продемонстрировали на примере задачи идентификации функциональных кластеров генов эффективность применения семантической метрики, чувствительность которой при сравнении с данными системы GO составила 96%. Этот подход получил развитие в работе [Zheng В., Lu X., 2007], где тематическая декомпозиция научных статей позволила получить графы, узлами которых являются не только белки, но и процессы молекулярной биологии -например, апоптоз. Наряду с описанием новых вычислительных подходов в вышеуказанных работах отмечается важность автоматического распознавания в текстах анализируемых документов специальных терминов, в том числе названий белков [Jenssen Т. et al., 2001].

В данной работе рассматривается методика сопоставления результатов высокопроизводительных протеомных экспериментов с информацией, представленной в виде множества рефератов научных публикаций в базе MEDLINE. В работе используются как публикации, найденные контекстным поиском по названию белка (релевантные), так и наиболее близкие им по смыслу (родственные). Предлагаемая методика основана на оценке семантической связности между белками, которая рассчитывается как функция от количества одинаковых релевантных или родственных публикаций, найденных для двух белков. Вычисленные значения семантической связности заносили в матрицу семантического сходства, которую затем отображали в виде неориентированного графа. Полученные в составе семантического графа изолированные подграфы сопоставляли с распределением белков по разделам базы данных KEGG и по категориям системы GO.

Целью работы являлась разработка метода представления информации о взаимосвязях между белками в виде семантической сети, построенной на основе автоматического анализа научных текстов. Для достижения цели решались задачи:

1. Для каждого из белков выборки, состоящей из пяти произвольно отобранных метаболических путей, сформировать специфичный семантический профиль релевантных публикаций.

2. Дополнить полученные профили родственными публикациями, найденными в результате автоматической оценки смыслового сходства документов.

3. Рассчитать меру семантической связности между белками как функцию пересечения множеств публикаций, входящих в состав релевантных и родственных профилей. На основе рассчитанной меры семантической связности построить семантическую сеть, отражающую белок-белковые взаимосвязи.

4. Выделить в полученной семантической сети изолированные подграфы и сравнить их с распределением белков по разделам базы данных метаболических путей KEGG и по категориям онтологии генов GO.

2. ОБЗОР ЛИТЕРАТУРЫ

Обзор литературы содержит описание методов выявления взаимосвязанных белков с использованием автоматического анализа текстов. В обзоре обсуждаются основные задачи, решаемые данными методами в области биомедицины: автоматическая идентификация названий белков и генов, поиск близких по содержанию документов среди научных публикаций и непосредственно выявление взаимосвязей между объектами. Во второй части обзора литературы рассматриваются онтологии и контролируемые словари терминов, разработанные для стандартизованного описания результатов исследований. В заключении приводятся сведения о способах визуализации найденных взаимосвязей между белками в виде графов и семантических сетей.

Интерес к взаимосвязанным белкам обусловлен необходимостью всесторонней (прежде всего, функциональной) характеристики большого количества расшифрованных в течение последних 10-15 лет геномов. Несмотря на то, что нуклеотидные последовательности большого количества геномов полностью определены, многие из них, включая геном человека, содержат пробелы в функциональной аннотации, что существенно затрудняет системное понимание молекулярных механизмов.

Молекулярные системы (например, метаболические сети) обладают модульностью, то есть такой внутренней структурой, при которой связи между узлами внутри модуля значительно плотнее, чем связи между модулями [Newman М., 2003]. Каждый функциональный модуль внутри клетки является дискретным и состоит из плотно связанных между собой объектов, выполняющих определенную функцию [Barabasi A., Oltvai Z., 2004]. Выявление модульности внутри сети дает не только детализированную информацию об объектах, составляющих сеть, но также позволяет проследить стадии формирования структуры сети.

Под взаимосвязанными белками в данной работе мы понимаем группу белков, входящих в состав одного модуля, то есть объединенных по каким-либо критериям. Это может быть одинаковая внутриклеточная локализация [Zhao J. et al., 2007], функциональные [Ulitsky I., Shamir R., 2007] или структурные характеристики [Wang Z., Zhang J., 2007], сходство происхождения, эволюционная консервативность [Spirin V. et al., 2006] и даже сходство экспериментальных условий изучения. Наиболее важным с практической точки зрения представляется выявление физически взаимодействующих между собой белков, поскольку такие комплексы являются потенциальными мишенями для создания лекарств [Archakov A. et al., 2003].

В основе реконструкции белковых сетей и анализа модульности лежат экспериментальные данные, полученные с использованием in vitro и in silico методов, а также системы формализованного описания белков и генов (онтологии) [Mungall С., 2004]. Существует две основные модели, позволяющие описывать структуру модуля: в центрической модели один белок связан со всеми белками внутри модуля, при этом другие связи отсутствуют, а в матричной каждый объект модуля связан со всеми другими объектами [Bader G., Hogue С., 2002]. В реальности в составе модуля обычно наблюдаются признаки обеих моделей. Для поиска списка белков, находящихся в составе одного модуля, обычно используют компьютерные подходы и высокоэффективные экспериментальные технологии, в то время как для детальной характеристики связей внутри модуля более значимы экспериментальные технологии, ориентированные на исследование взаимосвязей только между парами белков.

В области биоинформатики сети, в основном, используются двумя способами: в первом направлении компьютерные сети (например, нейронные сети) рассматриваются как способ моделирования биологических процессов -дифференцировка, репликация ДНК, апоптоз, малигнизация и прочее, второе направление представлено семантическими сетями, устанавливающими объекты предметной области - молекулярной биологии, и определяющими взаимосвязи между этими объектами. Эффективным инструментом для построения семантических сетей является исследование научно-технической литературы методами текстомики, в основе которой лежат подходы к интеллектуальному анализу текстов на естественных языках.

Заключение Диссертация по теме "Биоинформатика", Пономаренко, Елена Александровна

6. выводы

1. С использованием номенклатурных обозначений из базы данных UniProt в автоматическом режиме получены релевантные семантические профили, специфичные для каждого белка. Релевантный семантический профиль представлял собой множество идентификаторов публикаций из ресурса MEDLINE, найденных контекстным поиском в текстах рефератов по наименованиям белков.

2. Множество входящих в состав семантических профилей рефератов расширяется в три раза при включении в него родственных публикаций, предлагаемых автоматическими средствами оценки смыслового сходства документов. За счет родственных публикаций было установлено дополнительно около 3-х тыс. неявных семантических связей между белками из пяти различных метаболических путей базы данных KEGG.

3. Мера семантического сходства между двумя белками определена как множество рефератов публикаций, совпадающих при сравнении семантических профилей белков. С использованием этой меры получены семантические сети, отображающие взаимосвязи между белками в составе хорошо изученных биохимических и молекулярно-биологических процессов. Семантические сети, построенные на основе сопоставления релевантных и родственных профилей, сходны между собой, причем сравнение родственных профилей позволяет выявить дополнительные семантические взаимосвязи между белками.

4. В составе каждой семантической сети выявлено несколько изолированных подграфов. Показано, что в состав подграфов входят белки, относящиеся к одному метаболическому пути и имеющие одинаковые аннотации в системе онтологии GO, с вероятностью случайного объединения р< 1(Г3.

5. ЗАКЛЮЧЕНИЕ

Возможности постгеномных технологий позволяют в высокоэффективном режиме идентифицировать группы генов и белков, координировано реагирующих на изменение экспериментальных условий. В то же время, оказалось не очень просто объяснить с точки зрения функциональных особенностей биомакромолекул биологические эффекты, проявляющиеся в результате работы ансамбля генов. Интерпретация экспериментальных данных, содержащих идентификаторы сотен или тысяч генов, требует кропотливой работы по экспертному анализу информации в биологических базах данных и электронных библиотеках. В ряде случаев показано, что правильно построенная сетевая модель молекулярного процесса позволяет получить логичную картину, объясняющую механизм координированного действия генов и белков. Считается, что такого рода сети позволят идентифицировать мишени терапевтического воздействия, включая мишени для новых лекарств. В связи с этим, актуальной является задача разработки методов интеллектуального анализа научной биомедицинской литературы с целью извлечения информации о функциональных взаимосвязях между белками.

На первом этапе информационной экстракции необходимо провести анализ релевантной литературы и определить группы взаимосвязанных объектов. Поскольку при автоматической обработке научной литературы характер этой взаимосвязи a priori не известен, то говорят о семантической взаимосвязи, простейшим примером которой является случай, когда обозначения двух объектов встретились в тексте одного документа [Stapley В., Benoit G., 2000]. На этом простом принципе построено несколько систем анализа научной литературы, наиболее известными из которых являются PubGene [Jennsen Т. et al, 2001], PubMatrix [Becker К. et al, 2003] и STRING [Jensen L. et al., 2009].

Библиография Диссертация по биологии, кандидата биологических наук, Пономаренко, Елена Александровна, Москва

1. Aerts, S. et al. (2008). Text-mining assisted regulatory annotation //Genome Biol. 9: R31.

2. Al-Shahrour, F. et al. (2006). BABELOMICS: a systems biology perspective in the functional annotation of genome-scale experiments //Nucleic Acids Res. 34: W472-476.

3. Al-Shahrour, F., R. Diaz-Uriarte, J. Dopazo (2004). FatiGO: a web tool for finding significant associations of Gene Ontology terms with groups of genes //Bioinformatics. 20: 578-580.

4. Archakov, A. I. et al. (2003). Protein-protein interactions as a target for drugs in proteomics //Proteomics. 3: 380-391.

5. Ashburner, M. et al. (2000). Gene ontology: tool for the unification of biology. The Gene Ontology Consortium //Nat Genet. 25: 25-29.

6. Azuaje F., Dopazo J. (2005) Data Analysis and Visualization in Genomics and Proteomics. England: John Wiley & Sons Ltd.

7. Bader, G. D., C. W. Hogue (2002). Analyzing yeast protein-protein interaction data obtained from different sources //Nat Biotechnol. 20: 991-997.

8. Bader, G. D., D. Betel, C. W. Hogue (2003). BIND: the Biomolecular Interaction

9. Network Database //Nucleic Acids Res. 31: 248-250.

10. Barabasi, A. L., Z. N. Oltvai (2004). Network biology: understanding the cell's functional organization //Nat Rev Genet. 5: 101-113.

11. Becker, K.G. et al. (2003) PubMatrix: a tool for multiplex literature mining // BMC Bioinformatics.4:61.

12. Beissbarth, T. (2006). Interpreting experimental results using gene ontologies //Methods Enzymol. 411: 340-352.

13. Blaschke, C., A. Valencia (2002). Automatic ontology construction from the literature//Genome Inform. 13: 201-213.

14. Blaschke, С., M. A. Andrade, C. Ouzounis, A. Valencia (1999). Automatic extraction of biological information from scientific text: protein-protein interactions //Proc Int Conf Intell Syst Mol Biol: 60-67.

15. Bodenreider, O. (2004). The Unified Medical Language System (UMLS): integrating biomedical terminology //Nucleic Acids Res. 32: D267-270.

16. Boeckmann, B. et al. (2003) The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003 //Nucleic Acids Res. 31(l):365-70.

17. Boutet, E. et al (2007). UniProtKB/Swiss-Prot //Methods Mol Biol. 406: 89-112.

18. Brill, E. (1995). Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging //Comput. Linguistics. 21.

19. Bundschus, M. et al (2008). Extraction of semantic biomedical relations from text using conditional random fields //BMC Bioinformatics. 9: 207.

20. Chabalier, J., J. Mosser, A. Burgun (2007). A transversal approach to predict gene product networks from ontology-based similarity//BMC Bioinformatics. 8: 235.

21. Chang, J. Т., H. Schutze, R. B. Altman (2004). GAPSCORE: finding gene and protein names one word at a time //Bioinformatics. 20: 216-225.

22. Chen, H., В. M. Sharp (2004). Content-rich biological network constructed by mining PubMed abstracts //BMC Bioinformatics. 5: 147.

23. Chen, J. et al (2003). Biosynthesis of 3-O-sulfated heparan sulfate: unique substrate specificity of heparan sulfate 3-O-sulfotransferase isoform 5 //Glycobiology. 13: 785-794.

24. Clegg, А. В., A. J. Shepherd (2008). Text mining //Methods Mol Biol. 453: 471491.

25. Couto, F.M., Silva, M.J., Coutinho, P.M. (2005) Semantic Similarity over the Gene Ontology: Family Correlation and Selecting Disjunctive Ancestors //Proc of the ACM Conference in Information and Knowledge Management as a short paper.

26. Deerwester, S.C., Dumais, S.T., Landauer, Т.К., Furnas, G.W., Harshman, R.A. (1990). Indexing by latent semantic analysis //J. Inform. Sci. 41: 391-407.

27. Donaldson, I. et al. (2003). PreBIND and Textomy—mining the biomedical literature for protein-protein interactions using a support vector machine //BMC Bioinformatics. 4: 11.

28. Duan, Z. H. et al. (2006). The relationship between protein sequences and their gene ontology functions //BMC Bioinformatics. 7 Suppl 4: SI 1.

29. Eisen, M. В., P. T. Spellman, P. O. Brown, D. Botstein (1998). Cluster analysis and display of genome-wide expression patterns //Proc Natl Acad Sci U S A. 95: 14863-14868.i

30. Erhardt, R. A., R. Schneider, C. Blaschke (2006). Status of text-mining techniques applied to biomedical text //Drug Discov Today. 11: 315-325.

31. Flybase Consortium. (2003). The FlyBase database of the Drosophila genome projects and community literature //Nucleic Acids Res. 31: 172-175.

32. Formstecher, E. et al. (2005). Protein interaction mapping: a Drosophila case study //Genome Res. 15: 376-384.

33. Fukuda, K., A. Tamura, T. Tsunoda, T. Takagi (1998). Toward information extraction: identifying protein names from biological papers //Рас Symp Biocomput: 707-718.

34. Glenisson, P. et al. (2003). Evaluation of the vector space representation in text-based gene clustering //Рас Symp Biocomput: 391-402.

35. Govorun, V. M., A. I. Archakov (2002). Proteomic technologies in modem biomedical science //Biochemistry (Mosc). 67: 1109-1123.

36. Guo, X. et al. (2006). Assessing semantic similarity measures for the characterization of human regulatory pathways //Bioinformatics. 22: 967-973.

37. Guo, X., C. D. Shriver, H. Ни, M. N. Liebman (2005). Analysis of metabolic and regulatory pathways through Gene Ontology-derived semantic similarity measures НАША Annu Symp Proc: 972.

38. Harris, M. A. et al. (2004). The Gene Ontology (GO) database and informatics resource //Nucleic Acids Res. 32: D258-261.

39. Harris, T. W. et al. (2003). WormBase: a cross-species database for comparative genomics //Nucleic Acids Res. 31: 133-137.

40. He, M., Y. Wang, W. Li (2009). PPI finder: a mining tool for human protein-protein interactions //PLoS ONE. 4: 4554.

41. Hoffmann, R., A. Valencia (2004). A gene network for navigating the literature //Nat Genet. 36: 664.

42. Homayouni, R., K. Heinrich, L. Wei, M. W. Berry (2005). Gene clustering by latent semantic indexing of MEDLINE abstracts //Bioinformatics. 21: 104-115.

43. Hsing, M., J. L. Bellenson, C. Shankey, A. Cherkasov (2004). Modeling of cell signaling pathways in macrophages by semantic networks //BMC Bioinformatics. 5: 156.

44. Hunter, L., К. B. Cohen (2006). Biomedical language processing: what's beyond PubMed? //Mol Cell. 21: 589-594.

45. Jensen, L., J. Saric, P. Bork (2003). Utilizing literature for biological discovery //Proceedings of E-BioSci/ORIEL, Villa Monastero, Varenna, Italy

46. Jensen, L.J. et al. (2009) STRING 8~a global view on proteins and their functional interactions in 630 organisms //Nucleic Acids Res. 37:D412-6.

47. Jenssen, Т. K., A. Laegreid, J. Komorowski, E. Hovig (2001). A literature network of human genes for high-throughput analysis of gene expression //Nat Genet. 28: 21-28.

48. Kanehisa, M., S. Goto (2000). KEGG: kyoto encyclopedia of genes and genomes //Nucleic Acids Res. 28: 27-30.

49. Khatri, P. et al. (2005). A semantic analysis of the annotations of the human genome//Bioinformatics. 21: 3416-3421.

50. Kim, W., A. R. Aronson, W. J. Wilbur (2001). Automatic MeSH term assignment and quality assessment //Proc AMIA Symp: 319-323.

51. Klie, S. et al. (2008). Analyzing large-scale proteomics projects with latent semantic indexing //J Proteome Res. 7: 182-191.

52. Krallinger, M., A. Valencia (2005). Text-mining and information-retrieval services for molecular biology //Genome Biol. 6: 224.

53. Krallinger, M., A. Valencia, L. Hirschman (2008). Linking genes to literature: text mining, information extraction, and retrieval applications for biology //Genome Biol. 9 Suppl 2: S8.

54. Landauer, Т.К., Laham, D., Derr, M. (2004) From paragraph to graph: latent semantic analysis for information visualization //Proc. Natl. Acad. Sci. 101:52145219.

55. Lee, P. H., D. Lee (2005). Modularized learning of genetic interaction networks from biological annotations and mRNA expression data //Bioinformatics. 21: 2739-2747.

56. Lei, Z., Y. Dai (2006). Assessing protein similarity with Gene Ontology and its use in subnuclear localization prediction //BMC Bioinformatics. 7: 491.

57. Li, H., Y. Sun, M. Zhan (2007). Analysis of Gene Coexpression by B-Spline Based CoD Estimation //EURASIP J Bioinform Syst Biol. 49: 478.

58. Lin, J., W. J. Wilbur (2007). PubMed related articles: a probabilistic topic-based model for content similarity//BMC Bioinformatics. 8: 423.

59. Lord, P. W., R. D. Stevens, A. Brass, C. A. Goble (2003). Investigating semantic similarity measures across the Gene Ontology: the relationship between sequence and annotation//Bioinformatics. 19: 1275-1283.

60. Maglott, D., J. Ostell, K. D. Pruitt, T. Tatusova (2007). Entrez Gene: gene-centered information at NCBI //Nucleic Acids Res. 35: D26-31.

61. Manning, С., H. Schutze (1999). Foundations of Statistical Natural Language Processing //.

62. Мао, X., T. Cai, J. G. Olyarchuk, L. Wei (2005). Automated genome annotation and pathway identification using the KEGG Orthology (КО) as a controlled vocabulary//Bioinformatics. 21: 3787-3793.

63. Marcotte, E. M., I. Xenarios, D. Eisenberg (2001). Mining literature for protein-protein interactions//Bioinformatics. 17: 359-363.

64. Mika, S., B. Rost (2004). NLProt: extracting protein names and sequences from papers //Nucleic Acids Res. 32: W634-637.

65. Mungall, C. J. (2004). Obol: integrating language and meaning in bio-ontologies //Comp Funct Genomics. 5: 509-520.

66. Nadanaka, S., H. Kitagawa (2008). Heparan sulphate biosynthesis and disease //J1. Biochem. 144: 7-14.

67. Nelson, D. R. (2006). Cytochrome P450 nomenclature, 2004 //Methods Mol Biol. 320:1-10.

68. Newman, M. (2003). The structure and function of complex networks //SIAM Rev. 45: 167-256.

69. Onogi, Y. (2007). Assigning categorical information to Japanese medical terms using MeSH and MEDLINE //Stud Health Technol Inform. 129: 694-698.

70. Paul, M., A. Poyan Mehr, R. Kreutz (2006). Physiology of local renin-angiotensin systems //Physiol Rev. 86: 747-803.

71. Petrak, J. et al. (2008). Deja vu in proteomics. A hit parade of repeatedly identified differentially expressed proteins //Proteomics. 8: 1744-1749.

72. Pruitt, K. D., D. R. Maglott (2001). RefSeq and LocusLink: NCBI gene-centered resources //Nucleic Acids Res. 29: 137-140.

73. Quentin, Y., J. Chabalier, G. Fichant (2002). Strategies for the identification, the assembly and the classification of integrated biological systems in completely sequenced genomes //Comput Chem. 26: 447-457.

74. Raychaudhuri, S. (2006) Computational Text Analysis for Functional Genomics and Bioinformatics. Oxford University Press.

75. Raychaudhuri, S., R. B. Altman (2003). A literature-based method for assessing the functional coherence of a gene group //Bioinformatics. 19: 396-401.

76. Regev, Y., M. Finkelstein-Landau, R. Feldman (2003). Rule-based extraction of experimental evidence in the biomedical domain: The KDD Cup 2002 (task 1) //ACM SIGKDD Explorations Newsletter. 4: 90-92.

77. Rogers D.J., Tanimoto T.T. (1960). A Computer Program for Classifying Plants. Science. 132, 1115-1118.

78. Safran, M. et al. (2002). GeneCards 2002: towards a complete, object-oriented, human gene compendium//Bioinformatics. 18: 1542-1543.

79. Settles, B. (2005). ABNER: an open source tool for automatically tagging genes, proteins and other entity names in text //Bioinformatics. 21: 3191-3192.

80. Shi, M., D. Edwin, R. Menon (2002). A machine learning approach for the curation of biomedical literature-KDD Cup 2002 (task 1) //ACM SIGKDD Explorations Newsletter. 4: 93-94.

81. Song, Y., E. Kim, G. G. Lee, В. K. Yi (2005). POSBIOTM-NER: a trainable biomedical named-entity recognition system //Bioinformatics. 21: 2794-2796.

82. Spirin, V., M. S. Gelfand, A. A. Mironov, L. A. Mirny (2006). A metabolic network in the evolutionary context: multiscale structure and modularity //Proc Natl Acad Sci U S A. 103: 8774-8779.

83. Stapley, B. J., G. Benoit (2000). Biobibliometrics: information retrieval and visualization from co-occurrences of gene names in Medline abstracts //Рас Symp Biocomput: 529-540.

84. Sun, H. et al (2006). GOFFA: Gene Ontology For Functional Analysis A FDA Gene Ontology Tool for Analysis of Genomic and Proteomic Data //BMC Bioinformatics. 7 Suppl 2: S23.

85. Ulitsky, I., R. Shamir (2007). Identification of functional modules using network topology and high-throughput data //BMC Syst Biol. 1: 8.

86. UniProt Consortium. (2009). The Universal Protein Resource (UniProt) //Nucleic Acids Res. 37: D169-174.

87. Wang, Y., Marsden, P.A. (1995) Nitric oxide synthases: gene structure and regulation //Adv. Pharmacol. 34:71-90.

88. Wang, Y., P. A. Marsden (1995). Nitric oxide synthases: gene structure and regulation //Adv Pharmacol. 34: 71-90.

89. Wang, Z., J. Zhang (2007). In search of the biological significance of modular structures in protein networks //PLoS Comput Biol. 3: 107.

90. Wilbur, W., L. Coffee (1994). The Effectiveness of Document Neighboring in Search Enhancement //Inf. Process. Manage. 30: 253-266.

91. Wu, С. H. et al (2003). The Protein Information Resource //Nucleic Acids Res. 31:345-347.

92. Wu, X. et al (2006). Prediction of yeast protein-protein interaction network: insights from the Gene Ontology and annotations //Nucleic Acids Res. 34: 21372150.

93. Xenarios, I. et al (2002). DIP, the Database of Interacting Proteins: a research tool for studying cellular networks of protein interactions //Nucleic Acids Res. 30: 303305.

94. Xu, D., D. Song, L. C. Pedersen, J. Liu (2007). Mutational study of heparansulfate 2-O-sulfotransferase and chondroitin sulfate 2-O-sulfotransferase //J Biol Chem. 282: 8356-8367.

95. Zhao, J. et al. (2007). Modular co-evolution of metabolic networks //BMC Bioinformatics. 8: 311.

96. Zheng, В., X. Lu (2007). Novel metrics for evaluating the functional coherence of protein groups via protein semantic network //Genome Biol. 8: R153.1. БЛАГОДАРНОСТИ