Бесплатный автореферат и диссертация по биологии на тему
Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода Trichoderma
ВАК РФ 03.00.07, Микробиология

Автореферат диссертации по теме "Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода Trichoderma"

На правах.

Тарасов Денис Станиславович

Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода ТгкЬодегта

03.09.07-03 микробиология

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Казань, 2007

003175898

Работа выполнена на кафедре генетики ГОУ ВПО "Казанский государственный университет им В И. Ульянова-Ленина», г. Казань.

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

кандидат биологических наук Акберова Наталья Иванована

доктор биологических наук Наумова Римма Павловна

доктор ветеринарных наук Алимов Азат Миргасимович

Казанский институт биохимии и биофизики КазНЦРАН, г Казань

Защита состоится 29 ноября 2007 г. в 13 ч 00 мин. на заседании диссертационного совета Д 212.081.08 при Казанском государственном университете по адресу г Казань Кремлевская 18

С диссертацией можно ознакомиться в Научной библиотеке им. Н.И. Лобачевского Казанского государственного университета

Автореферат разослан "29" октября 2007 года

Ученый секретарь -

диссертационного совета, / /Сх7

доктор биологических наук Абрамова 3 И.

Актуальность темы

Систематика организмов имеет две цели-

1 теоретическую - установление взаимосвязей между признаками различных организмов

2. практическую - идентификация организмов, предсказание свойств идентифицированных организмов на основании их принадлежности к группе Систематика включает в себя три большие области-

1 Номенклатура занимается вопросами выбора имен для систематических групп

2. Таксономия занимается таксонами и взаимосвязями между ними

3. Идентификация - отнесение организма к конкретному таксону

Современная систематика микроорганизмов сталкивается со

значительными проблемами.

В области номенклатуры Современная номенклатура в систематике регулируется с помощью устоявшихся наборов правил, ведущих свое начало со времен Линнея Существует Зоологический кодекс номенклатуры, Ботанический кодекс, Бактериологический кодекс и Вирусный кодекс Эти кодексы номенклатуры вызывают много нареканий Указывается, например, на то, что при работе в рамках задаваемых ими правил систематик микроорганизмов вынужден тратить значительное время (до 20% всего рабочего времени) на номенклатурные/историко-библиографические изыскания, вместо того, чтобы заниматься предметом своих исследований,

В области таксономии Систематика микроорганизмов сталкивается с рядом проблем, обусловленных спецификой изучаемого объекта

□ большое разнообразие микроорганизмов;

□ отсутствие полового процесса у многих микроорганизмов не позволяет использовать определение вида по признаку скрещиваемости,

□ горизонтальный перенос генов размывает границы видов и усложняет реконструкцию филогении;

□ высокая скорость мутационных изменений

В систематике микроорганизмов используются различные группы признаков, такие как морфологические, физиологические, биохимические, молекулярно-генетические. Широко признается тот факт, что данных одной группы признаков недостаточно для установления взаимосвязей между таксонами Но в связи с тем, что на сегодняшний день отсутствуют действенные методы интеграции морфологических, физиологических,

биохимических и молекулярно-генетических данных в рамках единого подхода, на практике часто используются данные одной группы признаков.

В отчете 2006 года Американской Академии Микробиологии сделан вывод о том, что используемые сегодня средства систематики не способны адекватно учитывать существующее разнообразие микроорганизмов, что является обоснованием необходимости разработки принципиально новых подходов к систематике микроорганизмов.

Одним из перспективных подходов к систематике является применение алгоритмической теории информации, которая использовалась ранее для создания метода построения филогенетических деревьев на основании сравнения целых геномов

Предполагается, что использование алгоритмической теории информации можно распространить и на другие группы признаков, а также на другие вопросы систематики, такие как описание свойств микроорганизмов и вопросы номенклатуры Цель работы

Целью данной работы было создание компьютерного метода систематики микроорганизмов на основе алгоритмической теории информации

Для выполнения работы были поставлены следующие основные задачи:

1. Разработка способа унифицированного описания морфологических, физиологических, биохимических и молекулярно-генетических признаков, пригодный для использования в компьютерных классификационных процедурах

2 Разработка компьютерных классификационных процедур для построения таксономических деревьев, использующих унифицированные описания признаков и метрику расстояния, основанную на алгоритмической сложности

3 Проверка разработанных процедур на практике Научная новизна

Впервые создан метод, позволяющий использовать универсальную меру расстояния (нормализованное информационное расстояние) при анализе таксономии микроорганизмов с использованием морфологических, физиологических и биохимических признаков Разработанный метод сочетает в себе преимущества нумерического и традиционного (интуитивного) подходов к систематике и обладает следующими преимуществами.

□ Исключаются проблемы связанные с произвольным выбором меры расстояния и сводится к минимуму эффект от выбора алгоритма кластеризации

□ Метод позволяет включать знания и личный опыт систематика посредством выбора средств кодирования признака в программе-описании. В отличие от матрицы признаков, используемой в других нумерических методах, программа-описание способствует более обдуманному подходу к процессу выбора и кодирования признаков, сохраняет логику принятых в этом процессе решений для последующего анализа другими исследователями

□ Разработанный метод не требует использования строго независимых признаков. В описания-программы могут включаться связанные признаки, одновременно с информацией о способах их взаимодействия и развития процесса во времени.

Практическая значимость работы

Разработанный метод может использоваться во всех задачах таксономии микроорганизмов, где обычно используется нумерическая систематика и кластерный анализ.

Разработанное программное обеспечение и язык Сопсер18уз1ет может быть применен в практической работе исследователя-микробиолога, а также в учебном процессе

Предложенные улучшения к микробиологической номенклатуре, основанные на использовании пространств имен и псевдонимов, могут быть использованы в практической работе с систематикой микроорганизмов, поскольку являются совместимыми с существующими номенклатурными правилами, что одновременно упростит работу. Методы исследования

Программы для синтаксического разбора формализованных описаний микроорганизмов, графический интерфейс пользователя для работы с описаниями, программа, вычисляющая приблизительное значение алгоритмической сложности и программа построения матрицы расстояний были написаны с помощью языка программирования ¥#. Для сжатия данных описаний использовался алгоритм ^ар Классификационные деревья строились с помощью алгоритмов ЦРОМА, Не^Ы>ог-1о1шп§, и метода минимального эволюционного расстояния, реализованных в программном пакете РНУЫР, и визуализировались с помощью пакета РЬу1оОга\у. При разработке языка Сопсер18уз1ет использовалась технология объектно-ориентированного

программирования Для построения объектно-ориентированных

классификаций Trichoderma использовался графический язык UML (Unified Modeling Language), для создания UML диаграмм использовалась программа UMLet. Апробация работы

Результаты работы докладывались на международных конференциях Bioinformatics of Genome Regulations and Stracture'2002 и 2004, Moscow Conference on Computational Molecular Biology, 2003 и 2007. Кроме того, результаты работы докладывались на 6-ой (2002), 7-ой (2003) 8-ой (2004) и 9-ой (2005) Пущинских школах-конференциях молодых ученых «Биология - наука XXI века», секция «Математическая биология», и XII Международной конференция студентов, аспирантов и молодых ученых «Ломоносов 2005». Публикации

По теме диссертации опубликовано 29 печатных работ, в том числе 19 тезисов конференций, 4 трудов международных конференций, 6 статей в научных журналах , в. т. ч 4 - в изданиях, рекомендованных ВАК для публикации результатов кандидатских диссертаций, 1

зарегистрированная программа для ЭВМ. Объем и структура диссертации

Диссертация состоит из введения, трех глав, заключения и списка литературы, изложена на 110 страницах. Работа включает 25 рисунков и 8 таблиц.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Введение

Во введении формулируется проблема, дается краткое описание состояния современной микробиологической систематики, ставится цель работы и задачи. Обосновывается формулировка цели и задач.

Первая глава. Обзор литературы

Современная биологическая систематика имеет длительную историю Существовало и существует множество различных направлений, часто называемых по-разному в различных источниках. Первоначально целью биологической систематики было построение некоторой «естественной» системы живых организмов.

Синематика в это Бремя опиралась на философскую доктрину, известную как «эссенциализм». Под эссенциализмом обычно понимается точка зрения, согласно которой для любого предмета или существа возможно перечислить набор характеристик, наличие которых необходимо и достаточно для определения его принадлежности к определенной группе Эти характеристики выражают «сущность» этого предмета. Эссенциализм можно видеть в учении древнегреческого философа Платона об идеях

Позднее Аристотель впервые вводит иерархический принцип в систематику, говоря о том, что каждая вещь характеризуется родом (то, что есть у нее общего с другими вещами) и видом - конкретной спецификой данной вещи.

В XVIII веке Карл Линней вводит во всеобщее употребление биномиальную номенклатуру. Кроме того, он вводит схему классификации по принадлежности организма к таксонам различных рангов (от конкретного к более общему), выделяя царство, класс, порядок, семейство, род и вид. Таким образом оформляются два из трех основных принципов номенклатуры современной систематики — иерархический принцип и биномиальные названия. Также оформляется и деление таксонов по рангам и названия самих рангов

В 1867 году де Кандоль вводит третий основной принцип современной номенклатуры - принцип приоритета Согласно ему за названием (родом и видом) организма закрепляется первое данное ему название, которое впоследствии не меняется. Необходимость этого принципа была обусловлена тем, что до этого общая практика состояла в том, что названия родов и видов постоянно пересматривались, в поисках «наиболее лучшего» названия, отражающего новые знания об этом виде,

что естественно создавало массу проблем для общения систематиков. Чтобы решить эту проблему «наиболее лучшее» название было принесено в жертву стабильности в названиях.

В рассмотренное время номенклатура продолжает совершенствоваться, а способ построения классификаций остается по сути неизменным. Для построения классификации исследователь на основании своей интуиции и личного опыта выбирает «существенные» признаки, т.е признаки, характеризующие сущность организма, таким же образом выбирает наиболее важные из этих признаков и уже на основании этих признаков (как правило, небольшого их числа) строит классификацию

По мере того, как среди биологов распространяется убеждение о том, что виды не являются неизменными, цель систематики смещается от открытия «естественной системы», которой видимо, не существует, к удовлетворению практических потребностей С другой стороны, с развитием эволюционных представлений был выдвинут тезис о том, что систематика должна отражать родство живых организмов. Соответственно в систематике оформляются различные направления Методы фе нетики

В противоположность идее о наличии «существенных» признаков нумерическая систематика основана на количественном учете всех признаков (точнее, большого числа различных признаков).

Возникновение идеи нумерической систематики связывают с именем французкого ботаника Адансона, жившего в XVIII веке Он впервые предположил, что отдельные признаки не имеют устойчивого значения, и только совокупность всех признаков может являться целостной систематической характеристикой. Точный учет большого количества признаков, остается, однако, во времена Адансона непосильной задачей.

В 60-х годах XX века П. Снит и Р. Сокал, работая над проблемой систематики бактерий, разрабатывают принципы и методы количественной фенетики, опирающиеся на использование компьютеров для проведения вычислений.

В фенетическом анализе используется очень большое (200-300 или столько, сколько можно практически определить) число признаков Первоначально предполагалось использование только невзвешенных и независимых признаков, однако последующие работы рассматривали также применение взвешенных признаков По степени сходства организмов (т е. по количеству совпадающих признаков) строится матрица, по которой затем производится кластерный анализ и строится фенограмма Сторонники фенетики считают этот метод объективным, поскольку он теоретически не зависит от субъективной оценки «важности» признаков

или от выбора ограниченного набора признаков. Реально, однако, набор исследуемых признаков всегда ограничен, имеются сложности с выбором исключительно независимых признаков Существует огромное количество разнообразных мер расстояний - формул, по которым вычисляется степень сходства организмов и, кроме того, существует большое число алгоритмов построения фенограмм, дающих разные результаты. Поэтому фенетика не смогла принести в систематику ту ясность и однозначность, на которую надеялись ее сторонники

Методы кладистической (филогенетической) систематики

Кладистическое направление в систематики возникло благодаря работам В. Хеннига Слово «кладистика» происходит от греческого слова кХаёод, Ыаёоз - ветвь (Хешшг для обозначения своего подхода употреблял термин «филогенетическая таксономия») Сущность кладистического направления можно определить как классификацию организмов исключительно по их порядку ветвления на эволюционном дереве, а не в соответствии с морфологическим сходством.

Кладистика соответственно признает только монофилитические (происходящие от одного общего предка) систематические группы.

Монофилитические группы выделяются путем анализа признаков, которые присутствовали до появления последнего общего предка группы (шхезиоморфные признаки) и признаки, появившиеся у последнего общего предка (синапоморфные признаки)

Разделение признаков на плезиоморфные и синапоморфные производится путем сравнения организмов некоторой группы с внешней группой (родственной группой, но не происходящей от последнего общего предка исследуемой группы)

Кладистический анализ можно производить по любым признакам, однако в последнее время часто используются данные о последовательности ДНК и РНК. Для построения кладограмм используются компьютерные алгоритмы, такие как метод максимальной парсимонии (МР) и максимального правдоподобия (МЬ). Эти методы часто требуют чрезмерно больших вычислительных ресурсов. Современное состояние методов систематики В настоящее время применяются как количественные методы (фенетика, кладистика), так и построение классификации на основании личного опыта систематика Количественные методы часто критикуются за то, что при их использовании «настоящая» систематическая работа подменяется необдуманным использованием компьютерных программ. Количественные методы часто требуют использования более или менее произвольных числовых коэффициентов, метрик расстояния и т п Кроме

того, компьютерная программа, как правило, не может объяснить, почему был получен тот или иной результат. В свою очередь сторонники количественных методов указывают на субъективность и невоспроизводимость результатов традиционных подходов

Вторая глава. Разработка автоматизированного метода использования нормализованного информационного расстояния для таксономии микроорганизмов

Алгоритмическая теория информации в биологической систематике

Относительно недавно в работах рада авторов для использования в классификации биологических объектов была предложена «универсальная мера расстояния», основанная на понятии алгоритмической сложности. Данная мера выражается следующей формулой:

NID(x,y) = maK{K(xly)>K(ylx)} шах.{К{х), К (у)}

NID - нормализованное информационное расстояние между х и у; х,у -некоторые строки символов, содержащие информацию; К(х\у) -алгоритмическая сложность х при данном у.

Алгоритмическая сложность К(х\у) - это длина самой короткой двоичной программы для машины Тьюринга, которая, имея на входе х, выдаст на выходе у Нормализованное информационное расстояние является универсальной мерой, которая отражает любое сходство х и у. В этом смысле NID является лучшей из возможных мер расстояний вне зависимости от природы сравниваемых объектов.

Проблема заключается в том, что К(х\у) является в общем случае невычислимой величиной, и для практических целей были предложены методы нахождения ее приблизительного значения. Данные методы оказались пригодными для вычисления NID между последовательностями ДНК (включая целые геномы) и дали хорошие практические результаты при построении филограмм.

Однако для морфологических и физиологических признаков микроорганизмов методы аппроксимации NID не были разработаны, а методы, предложенные для других групп признаков, не являются адекватными.

Кодирование морфологических и физиологических признаков микроорганизмов для применения информационной меры расстояния

Для того чтобы применить нормализованное информационное расстояние для морфологических и физиологических признаков, их надо

вначале представить в виде строки символов. Поскольку обычно морфологические и физиологические признаки представляются в виде текстовых описаний на естественном языке (русском, английском и.т.п.), на первый взгляд задача кажется очень простой

Простое решение, однако, оказывается неадекватным Метод приблизительного вычисления NID, описанный ранее, основан на использовании алгоритмов сжатия информации (используемых обычно для сжатия файлов на компьютере) Нельзя рассчитывать на то, что компьютерный алгоритм сжатия сумеет обнаружить в текстовых описаниях на естественном языке закономерности, отражающие структуру описываемого объекта

Предлагаемое в настоящей работе решение состоит в следующем. Вместо текстовых описаний возможно использовать программы, записанные на специальном языке программирования. Каждая программа будет при запуске моделировать процесс развития морфологических и физиологических признаков данного организма Модель может быть как очень приблизительной, так и достаточно детальной, при условии, что уровень детализации одинаков для всех сравниваемых групп организмов. Длина полученной программы будет приближением к значению K(x\s). После чего автоматический компьютерный алгоритм может быть использован для нахождения приблизительного значения К(х\у)

Для целей записи программ-моделей организмов разработан специальный язык BMLIDA. (Biological Modeling Language for Information Distance Approximation)

Применение информационной меры расстояния к систематике Trichoderma

Существует множество групп живых организмов, систематика которых находится в процессе постоянного изменения Одной из таких групп являются грибы рода Trichoderma Грибы рода Trichoderma представляют ценность для применения в различных областях, в частности, для биологической защиты растений против грибных возбудителей болезней, а также как продуценты различных биологических активных веществ. Точное определение систематического положения изолятов необходимо для оценки их практических свойств

До настоящего времени отсутствует естественная система, позволяющая выявить однозначные связи между определенными видами этого рода. В литературе отмечены большие изменения в систематике, вызванные, во-первых, пересмотром объема рода, во-вторых, делением его на секции и описанием большого числа новых видов

На разрабатываемом языке BMLIDA были описаны модели развития 43 видов Trichoderma. Для этого сначала был отобран ряд морфологических и физиологических признаков, обычно используемый при описании данного вида. Список включал в частности, такие параметры как рост колонии и зависимость скорости роста от среды (КГА, SNA) и температуры, форма колонии, запах, цвет, вид воздушного мицелия, размеры и форма спор и ряд других признаков Была проанализирована последовательность проявления признаков, их возможные состояния, а также возможные взаимосвязи признаков между собой.

Далее было изучено, какие структуры данных и процедурные конструкции существующих языков программирования являются наиболее подходящими для представления используемых признаков. В результате анализа 16 различных языков программирования, представляющих каждую из четырех основных парадигм программирования (императивное программирование, функциональное программирование, логическое программирование, объектно-ориентированное программирование) были выбраны наиболее компактные и эффективные средства представления признаков. Эти средства были включены в разрабатываемый язык BMLIDA. Были выработаны правила, гарантирующие одинаковое представление одинаковых признаков в описаниях различных видов.

Для удобства работы была создана графическая программная оболочка и система автоматического поиска ошибок в описаниях

После этого было произведено собственно написание программ для видов Trichoderma. Полученные описания были использованы для вычисления NID и построения матрицы расстояний NID между видами с помощью специально написанной программы. На основании матрицы NID с помощью алгоритма Neighbor-Joining была построена дендрограмма, иллюстрирующая результаты кластеризации (Рисунок 1).

Neorufa

Cinnamomeum Nigroi

Virens Ghanense iivum

Haizianum citrinoviride

iu reoviride attunisporum

'longibranhiatum -♦Pseudokoningii

Fascicu latum

Polysporum Oblongisporum Fertile Semiorbis Pubescens

Crfemeum Candidum ♦

Piluliferum

strigosum

Asperellum ' spirals mlnutisporum croceum

Рис. 1. Кластерный анализ 43 видов рода Trichoderma с использованием меры расстояния NID.

Выяснилось, что выбор алгоритма кластеризации не влияет на полученный результат. Так топологии деревьев полученных по матрице NID с помощью алгоритмов UPGMA и метода минимальной эволюции не отличались существенно от дерева, полученного с помощью Neighbor-Joining. Также результат не чувствителен к порядку видов в матрице.

Полученное дерево (Рис. 1) согласуется в ряде пунктов с известными данными о взаимосвзязи видов внутри рода Trichoderma. В частности выделяются отдельно виды секции Trichoderma, подсекции Rufa - T.viride, Т. atroviride, Т. koningi и Т. ovalisporum. Вместе оказываются виды секции Pachibasium "А" - Т. Hamatum и Т. Asperellum. Также близко расположены виды секции Longibrachiatum - Т. longibraciatum, T.citrinoviride, Т. pseudokoningi. В то же время имеется и ряд отличий, не согласующихся с принятой моделью классификации рода (следует

отметить, что во многих случаях систематическое положение видов ТпсЬодегта является спорным вопросом, по которому отсутствует единое мнение)

Разработанный метод сочетает в себе преимущества нумерического и традиционного (интуитивного) подходов. С одной стороны, используется точный количественный метод, при этом исключаются проблемы связанные с произвольным выбором меры расстояния и сводится к минимуму эффект от выбора алгоритма кластеризации С другой стороны, метод позволяет включать знания и личный опыт систематика посредством выбора средств кодирования признака в программе-описании При этом, в отличии от матрицы признаков, используемой в других нумерических методах, программа-описание не поощряет формальный, недостаточно обдуманный подход к процессу выбора и кодирования признаков. Программа-описание сохраняет логику принятых в этом процессе решений, в то время как матрица признаков эффективно скрывает эту информацию. Наконец, разработанный метод не требует использования строго независимых признаков. В описания-программы могут включаться связанные признаки одновременно с информацией о способах их взаимодействия и развития процесса во времени. Эта информация адекватно учитывается при построении дерева благодаря использованию МО-метрики

В то же время в процессе проводимой работы были выявлены некоторые недостатки предложенного метода:

- Трудно понять причину получения тех или иных результатов кластеризации. Этот недостаток является общим для всех нумерических методов.

Автоматический алгоритм компрессии все же может давать неправильные результаты для К(х\у), при этом нет возможности ручной коррекции результатов

Третья глава. Использование технологии объектно-ориентированного программирования для представления закономерностей в признаках микроорганизмов Отмеченные во второй главе недостатки послужили стимулом для создания варианта разработанного метода, в котором основная работа по оценки К(х\у) возложена на человека-систематика, а автоматические алгоритмы только оказывают помощь, при этом любое их решение может быть прокомментировано компьютером. Данный вариант является более трудоемким, зато дает больше возможностей для оптимизации таксономии

Основной задачей было создать способ, который позволил бы в явном виде оиисать закономерности и сходства программ-моделей. Для этого были использованы техники объектно-ориентированного программирования.

Если мы сопоставим объектно-ориентированное программирование (ООП) и биологическую систематику, то можем идентифицировать некоторые соответствия. Любая существующая биологическая система может быть представлена средствами ООП. Чтобы понять эти соответствия, обратимся к рисунку 2, на котором представлен фрагмент биологической классификации в форме диаграммы классов. Любому таксону может быть сопоставлен класс, определяющий общие характеристики данного таксона (табл 1).

Триходерма

Число: РадяусКапонии

ТипВегаления.Ветвлеиие

Росг (Радус.= Радиус.* Прирост)

Веталение()

Слорообразование(>

\

ТияЭксудата:Эксучат

ВыделениеЭксудагзО

ТипПигмента: Пигмекг

ВыделениеПиокентаО

Рис 2. Наследование классов и биологическая систематика. «Триходерма» является абстрактным классом (не может иметь экземпляров), в котором определены атрибуты и методы, свойственные всем организмам рода ТпсЬобегта. Классы Вид_Т1 и Вид_Т2 являются подклассами «Триходерма», определяющими дополнительные атрибуты. Классы Вид_Т1 и Вид_Т2 являются видами с точки зрения биологической систематики, поскольку из них могут образовываться конкретные экземпляры (Культура№1)

Биологическая классификация ООП

Таксон Класс

Вид Неабстрактный класс, который может иметь экземпляры.

Таксон высших порядков Абстрактный класс

Организм Экземпляр класса

В тоже время ОО-подход предоставляет классификационные средства, для которых в биологических систематиках нет аналогов (например, множественное наследование) Такие классификационные средства позволяют в явном виде указать известные закономерности признаков, либо использовать автоматический алгоритм поиска закономерностей При этом в конце можно будет получить отчет о том, какие именно закономерности использовались при вычислении NID.

Для представления описаний и классификации биологических объектов был разработан специальный объектно-ориентированный язык ConceptSystem, который был применен для описания и классификации микроскопических грибов рода Tnchoderma

Применение метода явного задания закономерностей для классификации грибов рода Tnchoderma

Использовался способ описания, базирующийся на рассмотрении развития организмов рода Trichoderma как последовательности деления и дальнейшей специализации отдельных клеток

Описание представляет собой программу, которую необходимо задать исходной клетке (споре), чтобы получить ее развитие сначала в колонию Trichoderma, а в итоге снова в спору Такое описание является естественным, поскольку отражает реальное положение вещей и позволяет разделить признаки на свойственные единичным клеткам и появляющиеся в результате взаимодействия большого числа клеток. Описание-программа следует логике развития самого организма, а не логике проведения наблюдений, особенностей экспериментов и исторических обстоятельств, нередко оказывающих влияние на обычные текстовые описания

С использованием предложенных методов были построены программы описания и классификация для 10 изолятов грибов рода Trichoderma На Рис 3. приведен пример фрагмента систематики, полученной с использованием описаний-программ и принципа множественного наследования. Буквами K,L,M,N,0,P,Q,R,S,T обозначены конкретные изоляты Trichoderma

Для сравнения на рисунке 4 приведен один из существующих вариантов «стандартной» биологической классификации Тпскос1егта, который содержит 19 абстракций на 10 экземпляров, из них 10 видов и 1 род и 8 промежуточных таксонов. Различные по смыслу таксоны имеют одинаковые названия (ТпсЬоёегта - одновременно род и секция). При этом рисунок не содержит никакой информации о смысле различий между таксонами.

Рис 3. ОО-версия фрагмента классификации ТпсЬос1егта. Рядом с каждым классом обозначены буквами (К-Т) соответствующие экземпляры (изоляты) Тп'сЬоёеппа

Род

ТпсЬооегта

Сокцл« 1опд|ЬгасЬ}аШт

Подсекция

Вид

Т.Цопд^гасЫашт

Т.5а1итзБрошт

Т.Сйппсглпаае

ТгосЬойегта

ГшпсГе Г.согапф;

РзсЫЬакшт "А"

Т. аарегеНит

РасЫЬа^шгл "8"

ЙетюгЫ» Топе Ппеядев"

Т. Ьаггшпот

Т. оЫогфБрогит

Т. &р|га!&

Изояя* Т

Э К

о р

о

м

I

к

Рис 4. Фрагмент одной из «традиционных» классификаций рода ТпсЬос1егта. Справа приведено систематическое положение изолятов, которые использовались при построении ОО-систематики.

ОО-версия классификации, полученная в результате применения разработанного метода (рис 3), содержит 11 абстракций на 10 экземпляров, из которых имеется 9 видов 1 род и 1 промежуточный таксон. Между тем, как можно видеть из рисунка, ОО-классификация описывает взаимоотношения между рассматриваемыми организмами более подробно. В частности, в «стандартной» версии виды к которым относятся изоляты Т, 8 и Я поставлены в один ряд и дальнейшая информация об их взаимоотношениях отсутствует, в то время как в ОО-версии класс TExPig (Я) является наследником класса TPigmented (8) и ТЕх\^а1её (Т), из чего сразу следует что Я имеет признаки как 8 так и Т.

Следует особо отметить две особенности объектно-ориентированного подхода к систематики.

1. Использование множественного наследования. У бактерий распространенным явлением является горизонтальный перенос генов, а у микроскопических грибов часто имеется несколько ядер (в результате слияния клеток мицелия), содержащих гетерогенную генетическую информацию. В результате возможна ситуация когда штамм, вид или таксон более высокого ранга имеет нескольких предков одного уровня. Существующие схемы классификации не предусматривают такой ситуации. В ООП же имеется понятие множественного наследования, что позволяет расширить выразительные средства систематики без ущерба их строгости.

2. Номенклатура. В качестве эксперимента при построении ОО-систематики вместо микробиологических правил номенклатуры были использованы правила номенклатуры, принятые в программировании. Нами было произведено сравнение подходов к проблеме номенклатуры в биологической систематике и в программировании. В ходе проведенного сравнения нами был выдвинут ряд предложений касающихся того, как известные в программировании и информатике принципы могли бы быть использованы для решения проблем номенклатуры в биологии.

Выдвинутые предложения направлены на решение противоречия между необходимостью иметь уникальные и неизменные имена таксонов и потребностями в существовании простых, легко запоминающихся имен, отражающих существенные признаки таксона. Противоречие разрешается путем разделения имен на две группы В качестве уникального и неизменного имени предлагается использовать СиГО таксона На вШБ распространяется правило приоритета В то же время ОТЛЕ) является лингвистически и культурно нейтральным идентификатором, который может генерироваться как локально (на компьютерах пользователей), так и центрально (на специальном сервере). С11Ш предназначен прежде всего для компьютерной обработки.

Для использования людьми виГО может быть с помощью технологии псевдонимов сопоставлен с несколькими удобными локальными именами.

Для предотвращения конфликта локальных названий предлагается использовать технологию пространств имен Благодаря этому каждый исследователь или группа сможет использовать собственную предпочитаемую систему наименований для часто используемых объектов, без риска возникновения путаницы.

выводы

1 Разработан метод кодирования морфологических и физиологических признаков микроорганизмов для применения универсальной информационной нормализованной меры расстояния и метод нахождения приблизительного значения этой меры Метод заключается в представлении признаков организма в форме программы-модели его онтогенетического развития, записанной на специальном языке программирования 2. Разработана программа-интерпретатор языка программ-моделей для описания признаков микроорганизмов, а также интерактивный графический интерфейс пользователя. 3 Использование новых методов продемонстрировано на примере описания и классификации грибов рода Trichoderma, что позволило получить описания, интегрирующие морфологические и физиолого-биохимические признаки, а также построить более компактный по сравнению с принятым вариант систематики

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Тарасов ДС, Формат представления биологических описаний гриба и его применение на примере рода Trichoderma/Д С Тарасов, Р.И. Тухбатова, Н И Акберова, Ф.К. АлимоваУ/Вестник Татарстанского отделения российской экологической академии. -2005 .- №2(24).- С. 44-49

2 Тарасов Д.С Молекулярно-биологическое устройство - принципы организации//Д С Тарасов, Н.И. Акберова//Ученые записки КГУ, серия естественные науки.- 2005. - т.147. - кн. 2. - с 180-196

3. Тарасов Д.С. Увеличение интеллектуальных ресурсов научного исследования в биологических областях/Д С. Тарасов, Н.И. Акберова//Ученые записки КГУ, серия естественные науки - 2006 -т.148.-кн 1-е 138-155

4 Тарасов Д.С. Применение принципов объектно-ориентированного программирования к описанию и классификации биологических объектов на примере грибов рода Trichoderma/ Д.С Тарасов, Н И Акберова, РИ. Тухбатова, Ф.К. Алимова//Ученые записки КГУ, серия естественные науки.- 2006.- т. 148.- кн. 3. - с 125-148

5 Тарасов Д.С Виртуальные машины для исследования молекулярно-биологических процессов/ДС Тарасов, НИ. Акберова/УГеоресурсы - 2006 - №4(21).- с 45-48

6 Тарасов Д С Молекулярно-биологическое вычислительное устройство- архитектура и язык управления/Д С Тарасов, Н.И. Акберова//Новая Геометрия Природы.- Казань,- 2003. - с. 341-250

7 Тарасов Д.С Применение концепции молекулярно-биологического устройства для создания современных обучающих программ нового поколения/Д.С. Тарасов, Н.И Акберова//Новая Геометрия Природы.- Казань - 2003 - с. 332-334

8 Tarasov D S.A Language for modeling generic regulation m prokaiyotes/D S. Tarasov, A.Y Leontiev , N.I Akberova //4 th International conference of bioinformatics and genome regulation and structure.-Novosibirsk - 2004 - p 146-149

9 Tarasov D.S Architecture of cell device/D S. Tarasov, A Y. Leotiev, N.I Akberova//Third International conference of bioinformatics and genome regulation and structure.- Novosibirsk.- 2002. - p. 216-218

10. Акберова H И.Исследование симметрийной структуры геномов вирусов HSV/H.H Акберова, Д С Тарасов //Первая всероссийская

Мегпе1>конференция "Компьютерное и математическое моделирование в естественных науках - Тамбов.- 2001. - с. 23

И.Акберова Н И.Компъютерный дизайн ПЦР-праймеров различной специфичности/Н И Акберова, Д С Тарасов //Четвертая всероссийская Шегпе1>конференция "Компьютерное и математическое моделирование в естественных науках" - Тамбов -2002. - с. 32

12. Акберова НИ Метод симметрийного моделирования структуры ДНК-текстов/Н.И Акберова, А Ю Леонтьев, Д.С. Тарасов//Первая всероссийская Мегпе^конференция "Компьютерное и математическое моделирование в естественных науках,- Тамбов.-2001.-с. 24

13 Тарасов Д.С Архитектура клеточного устройства и гибридные биокибернентические системы/Д С Тарасов, Н И Акберова//7-ая Пущин^коп школа конференция молодых ученых - Пущино - 2003.

с 256

14 Тарасов Д.С.Компьютерный дизайн праймеров для ПЦР/Д С. Тарасов, Н.И Акберова//П научная конференция молодых ученых, аспирантов и студентов научно-образовательного центра КГУ -Казань - 2001,- с 91

15 Тарасов Д.С. Молекулярно-биологическое вычислительное устройство и клеточное киберпространство/Д.С. Тарасов, Н.И. Акберова//8-ая Пущинская школа-конференция молодых ученых "Биология - наука XXI века".- Пущино.- 2003 - с. 24

16 Тарасов ДС Объекто-ориентированная система описания, классификации и моделирования биологических объектов и ее применение к грибам рода ТпсЬоёеппа/Д С Тарасов//ХИ Международная конференция студентов, аспирантов и молодых ученых "Ломоносов" - М - 2005 - с 40-41

17 Тарасов Д.С Организация базы знаний для молекулярно-биологических исследований/Д С. Тарасов, Н И. Акберова //IV Научно-практическая конференция молодых ученых и специалистов Республики Татарстан.-Казань.-2001 - с. 110

18 Тарасов Д.С. Применение новых достижений молекулярной биологии при проектировании современных устройств микроэлектроники/Д С. Тарасов, Н И Акберова//Новые методологии проектирования устройств микроэлектроники -Владимир - 2002 - с 75-76

19 Тарасов ДС Технологии молекулярной биокибернетики использование системы СБРЬ/СОБ в конструировании ПЦР-

амплификаторов/Д.С. Тарасов, Н И. Акберова /ЛИ Научная конференция молодых ученых, аспирантов и студентов научного-образовательного центра КГУ "Материалы и технологии XXI века".- Казань,- 2003. - с. 84

20. Тарасов Д.С. Язык описания клеточных программ CDPL-1 и его применение/Д.С Тарасов, Н.И. Акберова , А.Ю. Леонтьев//6-ая Пущинская школа-конференция молодых ученых "Биология -наука XXI века".- Пущино - 2002. - с 195-196

21 Tarasov D.S The model of molecular biological computational device and its application to automatic genome annotation/D.S. Tarasov, N.I. Akberova, A.Y. Leontiev//International Moscow conference on computational molecular biology.-M.-2003. - p 225-226

22. Тарасов Д.С. Компьютерное моделирование структурно-функциональной огранизации ori-сайтов бактерий/ДС. Тарасов, Н.И. Акберова//12-я международная конференция "Ферменты микроорганизмов", Казань 2001. - с 83-84

23 Тарасов ДС. Регуляция и контроль инициации репликации, лингвистический подход/Д.С. Тарасов, Н.И. Акберова, А.Ю Леонтьев/Материалы XL международной научной студенческой конференции «Студент и научно-технический прогресс» Биология - Новосибирск.- 2002.- с. 149-150

24 Леонтьев А.Ю. Алгоритм построения образа функциональных областей генома/А Ю Леонтьев, Д.С. Тарасов//Материалы международной научной конференции, посвященной 70-летию образования зооиженерного факультета. Казанская государственная академия ветеринарной медицины - 2000 - с. 203205

25. Тарасов Д С Язык представления описания морфологии грибов на примере Trichoderma/Д.С. Тарасов, Р И Тухбатова//9-ая Пущинская школа-конференция молодых ученых "Биология -наука XXI века",- Пущино.- 2005. - с. 331

26. Шишкин A.B. Построение нетривиальной классификации грибов рода Trichoderma/A В Шишкин, Р.И. Тухбатова, Д С Тарасов// 9-ая Пущинская школа-конференция молодых ученых "Биология -наука XXI века".- Пущино - 2005 - с. 223.

27 Тарасов Д.С Интерпретатор языка CONCEPTSYSTEM// Программа для ЭВМ. Зарегистрирована в Реестре программ для ЭВМ 18 01.2007 Свидетельство о регистрации № 2007610350

28. Izotova E.D. Virtual Machine for Analyzing Living Systems/E.D Izotova, D S Tarasov //International Moscow conference on computational molecular biology.- M.- 2007 - p. 128-130 29 Tarasov D S. Object orientation and biological taxonomy: applying programming concepts to species classification/D S. Tarasov, E D Izotova, N I. Akberova//International Moscow conference on computational molecular biology.- M - 2007 - p 290-292

Тарасов Денис Станиславович Казанский государственный университет, биолого-ночвенный

факультет 420008, Казань, Кремлевская 18 Факс: (843)238721 Е-таН: dtarasov@matech.ru

Бумага офсетая Печать офсетная _Тираж 80 Заказ №170_

Типография "Первый печатный двор* 420111, гКаззнь, ул Баумана, 51, оф 26

Содержание диссертации, кандидата биологических наук, Тарасов, Денис Станиславович

Введение .'.

Глава 1. Обзор литературы

1.1. Краткий обзор истории развития биологической систематики

1.2. Нумерическая таксономия (фенетика) и ее методы.

1.2.1. Метод UPGMA (Unweighted pair-group using arithmetic averages).

1.2.2. Neighbour Joining (метод ближайших соседей)

1.3. Кладистическая (филогенетическая) таксономия и ее методы

1.3.1. Терминология.

1.3.2. Метод максимальной парсимонии

1.3.3. Метод максимального правдоподобия и его использование при реконструкции филогенетических деревьев

1.4. Развитие и современное состояние систематики микроорганизмов

1.5. Алгоритмическая теория информации и ее применение в систематике микроорганизмов

1.5.1. Предыстория разработки алгоритмической теории информации

1.5.2. Алгоритмическая теория информации.

1.5.3. Применения алгоритмической теории информации в систематике

1.6. Trichoderma - краткие сведения о модельном объекте.

Глава 2. Разработка автоматизированного метода использования нормализованного информационного расстояния для таксономии микроорганизмов 32 2.1. Проблема применения нормализованного информационное расстояния при сравнении морфологических и физиологических характеристик

2.2. Анализ языков программирования с точки зрения их пригодности для выражения информации о признаках микроорганизмов

2.2.1. Использованные компьютерные программы.

2.2.2. Процедурные, императивные языки.

2.2.3. Функциональные языки.

2.2.4. Логическое программирование.

2.2.5. Объектно-ориентированные языки.

Введение Диссертация по биологии, на тему "Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода Trichoderma"

Систематика организмов имеет две цели:

• Теоретическую - установление взаимосвязей между признаками различных организмов

• Практическую - идентификация организмов. Предсказание свойств идентифицированных организмов на основании их принадлежности к группе

Систематика включает в себя три большие области:

• Номенклатура - занимается вопросами выбора имен для систематических групп

• Таксономия - занимается таксонами и взаимосвязями между ними

• Идентификация - отнесение организма к конкретному таксону

Современная систематика микроорганизмов сталкивается со значительными проблемами. В области номенклатуры: Современная номенклатура в систематике регулируется с помощью устоявшихся наборов правил, ведущих свое начало со времен Линнея. Существует Зоологический кодекс номенклатуры [67], Ботанический кодекс [66], Бактериологический кодекс[105] и Вирусный кодекс [24]. Будучи основанными на одних и тех же принципах, кодексы накопили значительное количество отличий.

Существующие кодексы номенклатуры вызывают значительное количество нареканий. Указывается, например, на то, что при работе в рамках задаваемых ими правил систематик микроорганизмов вынужден тратить значительное время (до 20% всего рабочего времени) на номенклатурные/историко-библиографические изыскания вместо того, чтобы заниматься собственно предметом своих исследований [57]. Исправить недостатки в существующих кодексах представляется чрезвычайно сложной проблемой. Кодексы номенклатуры являются исторически сложившимися документами, статьи которых тесно связаны друг с другом. Вследствие этого изменение в одной части кодекса может вступать в противоречие с другими частями и/или нарушать функционирование всей системы как целого. Поэтому современная систематика продолжает опираться на положения, установленные на протяжении нескольких веков, хотя некоторые из них явно устарели и не отвечают потребностям современной науки.

В попытке исправить создавшееся положение, были предложены альтернативные варианты номенклатурных кодексов, не получившие, однако, общего признания.

В области таксономии систематика микроорганизмов сталкивается с рядом проблем, обусловленных спецификой изучаемого объекта:

• Большое разнообразие микроорганизмов.

• Отсутствие полового процесса у многих микроорганизмов не позволяет использовать определение вида, принятое для других групп живых существ.

• Горизонтальный перенос генов размывает границы видов и усложняет реконструкцию филогении.

• Высокая скорость изменения.

В систематике микроорганизмов используются различные группы признаков -морфологические, физиологические, биохимические, молекулярно-генетические. Широко признается тот факт, что данных одной группы признаков недостаточно для установления взаимосвязей между таксонами. Однако, в связи с тем, что на сегодняшний день отсутствуют действенные методы интеграции морфологических, физиологических, биохимических и молекулярно-генетических данных в рамках единого подхода на практике часто используются данные одной группы признаков.

В 2006 году Американской Академией Микробиологии был сделан вывод о том, что используемые сегодня средства систематики микроорганизмов не способны адекватно учесть существующее разнообразие микроорганизмов, что является основанием для необходимости разработки принципиально новых подходов к систематике микроорганизмов.

Одним из перспективных подходов к систематике является применение алгоритмической теории информации. В частности в работе [65] алгоритмичеекая теория информации использовалась для создания метода построения филогенетических деревьев на основании сравнения целых геномов.

Представляется, что использование алгоритмической теории информации можно распространить и на другие группы признаков, а также на другие вопросы систематики, такие как описание свойств микроорганизмов и вопросы номенклатуры.

Целью данной работы было создание компьютерного метода систематики микроорганизмов на основе алгоритмической теории информации В ходе выполнения работы были решены следующие основные задачи:

1. Разработать способ унифицированного описания морфологических, физиологических биохимических и молекулярно-генетических признаков, пригодный для использования в компьютерных классификационных процедурах

2. Разработать компьютерные классификационные процедуры для построения таксономических деревьев, использующие унифицированные описания признаков и метрику расстояния, основанную на алгоритмической сложности

3. Проверить разработанные процедуры на практике

В ходе работы также удалось выявить, что разработанный метод создания унифицированных описаний микроорганизмов может внести вклад в упрощение микробиологической номенклатуры, поэтому этот вопрос был также исследован.

На защиту выносятся следующие положения:

1. Теоретически обоснованным и практически эффективным способом интеграции морфологических, физиологических биохимических и молекулярно-генетических признаков микроорганизма в рамках единого и пригодного для компьютерной обработки описания является представление признаков организма в форме компьютерной программы.

2. Представление информации об организме в форме компьютерной программы позволяет повысить эффективность микробиологической номенклатуры - решить проблему противоречия между необходимостью иметь уникальные и неизменные имена таксонов и потребностями в существовании простых, легко запоминающихся имен, отражающих существенные признаки таксона

3. Разработанный метод построения таксономии с использованием в качестве метрики расстояния параметра, включающего алгоритмическую сложность, позволяет использовать для построения таксономических деревьев всю доступную информацию об организме.

Заключение Диссертация по теме "Микробиология", Тарасов, Денис Станиславович

Впервые создан метод, позволяющий использовать универсальную меру рас стояния (нормализованное информационное расстояние) при анализе таксоно мии микроорганизмов с использованием морфологических, физиологических

и биохимических призпаков. Разработанный метод сочетает в себе преимуще ства нумерического и традиционного (интуитивного) нодходов к систематике

и обладает следующими преимуществами:

• Исключаются проблемы связанные с произвольным выбором меры рас стояния и сводится к минимуму эффект от выбора алгоритма кластери зации. • Метод позволяет включать знапия и личпый опыт систематика посред ством выбора средств кодировапия признака в программе-описании. В

отличие от матрицы нризнаков, используемой в других нумерических ме тодах, программа-описание способствует более обдуманному подходу к

процессу выбора и кодирования признаков, сохраняет логику нринятых

в этом процессе решений для последующего анализа другими исследова телями. • Разработанный метод не требует использовапия строго независимых при знаков. В онисания-программы могут включаться связанные признаки,

одновременно с информацией о способах их взаимодействия и развития

процесса во времени. Разработанный метод может использоваться во всех задачах таксономии

микроорганизмов, где обычно используется нумерическая систематика и кла стерный анализ. Разработанное нрограммное обеспечение и язык ConceptSystem может быть

применен в практической работе исследователя-микробиолога, а также в учеб ном процессе.Предложенные улучшения к микробиологической номенклатуре, основан ные на использовании пространств имен и псевдонимов, могут быть использо ваны в практической работе с систематикой микроорганизмов, поскольку яв ляются совместимыми с существующими номенклатурными правилами, что

одновременно упростит работу

По результатам работы можно сделать следующие выводы:

1. Разработан метод кодирования морфологических и физиологических при знаков микроорганизмов для применения универсальной информацион ной нормализованной меры расстояния и метод нахождения приблизи тельного значения этой меры. Метод заключается в представлении при знаков организма в форме программы-модели его онтогенетического раз вития, записанной на специальном языке программирования. 2. Разработана программа-интерпретатор языка программ-моделей для опи сания признаков микроорганизмов, а также интерактивный графический

интерфейс пользователя. 3. Использование новых методов продемонстрировано на примере описа ния и классификации грибов рода Trichoderma, что позволило получить

описапия, иптегрирующие морфологические и физиолого-биохимические

признаки, а также построить более компактный но сравнению с принятым

вариант систематики.

Библиография Диссертация по биологии, кандидата биологических наук, Тарасов, Денис Станиславович, Казань

1. Александрова, А. А. Исторический обзор и современная система рода trichoderma / А. А. Александрова, J1. JL Великанов, И. И. Сидоров // Микология и фитопатология. — 2004. — Т. 38, № 1. — С. 3-23.

2. Дьяков,Ю . Т. Новое в систематике и номенклатуре грибов / Ю. Т. Дьяков, Ю. В. Сергеев. Москва, 2003. - С. 222.

3. Abelson, Н. Structure and Interpretation of Computer Programs / H. Abelson, G. J. Sussman, J. Sussman. MIT Electrical Engineering and Computer Science Series. — Cambridge, Massachusetts: MIT Press, 1985. — Pp. xx+542.

4. Adams, J. C. Fortran 90 Handbook Complete ANSI ISO Reference / J. C. Adams, W. S. Brainerd, J. T. Martin. McGraw Hill, 1992.- P. 740.

5. Amzi! Amzi! prolog + logic server. — 2003. http://ww.amzi.com.

6. ANSI X3J3//S8.115. Fortran 90.- 1990.

7. Antagonistic fungi, trichoderma spp.: Panoply of biological control / M. Vermaa, K. Satinder, R. D. Brar, R. Y. Tyagi // Biochemical Engineering Journal 2007. - Vol. 37. - Pp. 1-20.

8. A. W.F. Edwards, L. C.-S. Phenetic and Phylogenetic Classification / L. C.-S. A.W.F. Edwards. London: Syst. Assoc., 1964. - Pp. 67-76.

9. Benton, M. Stems, nodes, crown clades, and rank-free lists: is linnaeus dead? / M. Benton // Biological Reviews.- 2000.- Vol. 75.- Pp. 633648.

10. Bissett, J. A revision of the genus trichoderma. (i). section longibrachiatum / J. Bissett // Can. J. Bot. 1984. - Vol. 6. - Pp. 924-931.

11. Bissett, J. A revision of the genus trichoderma. (iii). section pachybasium / J. Bissett 11 Can. J. Bot.- 1991.- Vol. 69.- Pp. 2373-2417.

12. Bissett, J. A revision of the genus trichoderma. infrageneric classification / J. Bissett // Can. J. Bot.- 1991.-Vol. 69.-Pp. 2357-2372.

13. Brummitt, R. K. The biocode is unnecessary and unwanted / R. K. Brummitt // Biol Int. 1997. - Vol. 34. - Pp. 47-53.

14. Buchanan, R. E. Taxonomy / R. E. Buchanan // Ann. Rev. Microbiol — 1955.-Vol. 9.-Pp. 1-20.

15. Calmet, X. Minimum length from quantum mechanics and classical general relativity / X. Calmet, M. Graesser, S. D. H. Hsu // Physical Review Letters.- 2004.- Vol. 93, no. 21.- Pp. 101-111.http://lbk.aps.org/abstract/PRL/v93/c211101.

16. Cardelli, L. Abstract machines of systems biology / L. Cardelli // Transactions on Cornputational Systems Biology.— 2005.— Vol. 3.— Pp. 145-168.

17. Cavalier-Smith, T. A revised six-kingdom system of life / T. Cavalier-Smith // Biol Rev. Camb. Philos. Soc. 1998. - Vol. 73. - Pp. 203-266.

18. Chaitin, G. J. On the length of programs for computing finite binary sequences: Statistical considerations / G. J. Chaitin // Journal of the Association for Computing Machinery. — 1965. — Vol. 13. — Pp. 547-569.

19. Chaitin, G. J. To a mathematical definition of 'life' / G. J. Chaitin // ACM SICACT News. 1970. - Vol. 4. - Pp. 12-18.

20. Chaitin, G. J. Algorithmic Information Theory / G. J. Chaitin.— Cambridge: Cambridge University Press, 1987. — P. 236.

21. Chidamber, S. A metrics suite for object oriented design / S. Chidamber, C. Kemerer // IEEE Transactions on Software Engineering.— 1994. — Vol. 20, no. 6.-Pp. 476-493.

22. Church, A. The Calculi of Lambda Conversion / A. Church. — Princeton, N.J.: Princeton University Press, 1941.— Vol. 6 of Annals of Mathematics Studies. — P. 108. — Reprinted by Klaus Reprint Corp., New York in 1965.

23. Cilibrasi, R. Clustering by compression / R. Cilibrasi, P. M. Vitanyi // IEEE Transactions on Information Theory. — 2005. — Vol. 51, no. 4.— Pp. 15231545.

24. Classification and nomenclature of viruses / R. Francki, C. Fauquet, D. L. Knudson, F. Brown // Archives of Virology. — 1990. — no. 2. — Pp. 1445.

25. Colmerauer, A. The birth of Prolog / A. Colmerauer, P. Roussel // SIGPLAN Notices. 1993. - Vol. 28, no. 3. - Pp. 37-52.

26. Dahl, O.-J. The birth of object orientation: the simula languages / 0.-J. Dahl // Essays in Memory of Ole-Johan Dahl / Ed. by 0. Owe, S. Krogdahl, T. Lyche. — Vol. 2635 of Lecture Notes in Computer Science. — Springer, 2004.-Pp. 15-25.

27. Dahl, O.-J. Simula: An ALGOL-based simulation language / O.-J. Dahl, K. Nygaard // Communications of the ACM.— 1966.— Vol. 9, no. 9.— Pp. 671-678.

28. Dahl, O.-J. SIMULA 67 common base language: Publication S-2 / Dahl, O.-J., B. Myhrhaug, K. Nygaard. — Oslo, Norway: Norwegian Computing Center, 1968.

29. Diaz, D. The GNU prolog system and its implementation / D. Diaz, P. Codognet // SAC (2).- 2000.- Pp. 728-732.

30. Dong, S. Gene structure prediction by linguistic methods / S. Dong, D. B. Searls // Genomics. 1994. - Oct. - Vol. 23, no. 3.-Pp. 540-551.

31. Draft biocode: The prospective international rules for the scientific names of organisms / J. Greuter, M. McNeill, M. Mayo et al. // Bulletin of Zoological Nomenclature. 1997. - Vol. 53. - Pp. 148-166.

32. Drews, G. Ferdinand Cohn, a founder of modern microbiology / G. Drews // ASM News. 1999. - Vol. 65. - P. 547.

33. Druzhinina, I. 2005 spicies concept and biodiversity in trichoderma and hypocrea: from aggregate species to species clusters / I. Druzhinina, C. Kubicek // J. Zhigiang Univ SCI. 2005. - Vol. 6. - Pp. 100-112.

34. Durand-Lose, J. Abstract geometrical computation for black hole computation / J. Durand-Lose // MCU / Ed. by M. Margenstern.— Vol. 3354 of Lecture Notes in Computer Science.— Springer, 2004. — Pp. 176-187.

35. Eck, R. Atlas of Protein Sequence and Structure / R. Eck, M. Dayhoff.— Silver Springs, Maryland: National Biomedical Research Foundation.

36. Eliens, A. Principles of Object-Oriented Software Development / А. ЕИёпв. — second edition. — Addison-Wesley, 2000.

37. Evolution of the vacuolar h+-atpase: implications for the origin of eukaryotes / J. P. Gogarten, H. Kibak, P. Dittrich et al. // Proc. Natl. Acad. Sci 1989. - Vol. 86. - Pp. 6661-6665.

38. Evolutionary relationship of archaebacteria, eubacteria, and eukaryotes inferred from phylogenetic trees of duplicated genes / N. Iwabe, K. Kuma, M. Hasegawa et al. // Proc. Natl Acad. Sci 1989. - Vol. 86. - Pp. 93559359.

39. Faegri, К. Proposals on registration of new names and combinations / K. Faegri // Taxon. 1991. - Vol. 40. - Pp. 681-683.

40. Fisher, R. A. On the mathematical foundations of theoretical statistics / R. A. Fisher // Philos.Trans. R. Soc.- 1922.- Vol. 68.- Pp. 222-309.

41. Fitch, W. M. On the problem of discovering the most parsimonious tree / W. M. Fitch // Am. Nat. 1977. - Vol. 111. - P. 257.

42. Foulds, L. R. The steiner problem in phylogeny is np-complete / L. R. Foulds, R. L. Graham // Advances in Applied Mathematics. — 1982. — Vol. 3. — Pp. 43-49.

43. Foulds, L. R. Unlikelihood that minimal phylogenies for a realistic biological study can be constructed in reasonable computational time / L. R. Foulds, R. L. Graham // Mathematical Biosciences. — 1982. — Vol. 60. — Pp. 133142.

44. Fredkin, E. Digital mechanics: An informational process based on reversible universal CA / E. Fredkin // Physica D. 1990. - Vol. 45. - P. 254.

45. Garay, L. J. Quantum gravity and minimum length / L. J. Garay // International Journal of Modern Physics A. — 1995. — Vol. 10. — P. 145.http:// www.citebasc.org/abstract ?id=oai:arXiv.org:gr-qc/9403008.

46. Godel, K. On formally undecidable propositions of principia mathematica and related systems / K. Godel // From Frege to Godel: A Source Book in Mathematical Logic / Ed. by J. V. Heijenoort. 1967. - Pp. 592-617.

47. Gofen, A. From Pascal to Delphi to Object Pascal-2000 / A. Gofen // ACM SIGPLAN Notices. 2001. - Vol. 36, no. 6. - Pp. 38-49.

48. Goldberg, A. Smalltalk 80: The Language and its Implementation / A. Goldberg, D. Robson. Addison-Wesley, 1983. - P. 736.

49. Gosling, J. The Java Language Specification / J. Gosling, B. Joy, G. Steele. The Java Series.- Addison-Wesley, 1997.- P. 864.http://java.sun.com/docs/books/jls/html/.

50. Gould, S. J. A view of life / S. J. Gould, S. Singer, S. Luria.— Benjamin/Cummings Pub Co, 1981. P. 649.

51. Hart, T. The new compiler: Tech. Rep. AIM-39 / T. Hart, M. Levin: MIT Artificial Intelligence Laboratory, 1962. ftp://publications, ai.mit.edu / aipublications/pdf/ AIM-039.pdf.

52. Haskell 98 Language and Libraries, the Revised Report. / Ed. by S. P. Jones, et al. — CUP, 2003. — P. 272.

53. Hawksworth, D. L. The need for a more effective biological nomenclature for the 21st century / D. L. Hawksworth // Bot. J. Linn. Soc. — 1995. — Vol. 109. Pp. 543-567.

54. Henderson-Sellers, B. Object-Oriented Metrics: Measures of Complexity /B. Henderson-Sellers. — Prentice-Hall, 1996.

55. Hennig, W. Numerical taxonomy. The principles and practice of numerical classification / W. Hennig. — Urbana: Univ. of Illinois Press, 1966.

56. Hewitt, C. PLANNER: A language for proving theorems in robots /C. Hewitt //IJCAL- 1969,- Pp. 295-302.

57. Huber, H. A new phylum of archaca represented by a nanosized hyperthermophilic symbiont / H. Huber // Nature. — 2002. — Vol. 417. — Pp. 63-67.

58. Hudak, P. Conception, evolution and application of functional programming languages. / P. Hudak // Сотр. Surveys.— 1989.— Vol. 21, no. 3.— Pp. 359-411.

59. Hunt, J. SmallTalk and object orientation / J. Hunt.— Springer-Verlag, 1997.-P. 378.

60. Hypocrea-trichoderma: species with conidiophore elongations and green conidia / P. Chaverri, L. A. Castlebury, B. Overton, G.J.Samuels // Mycologia. 2003. - Vol. 95, no. 6. - Pp. 1100-1140.

61. An information-based sequence distance and its application to whole mitochondrial genome phylogeny / L. Ming, J. H. Badger, X. Chen et al. // Bioinformatics. 2001. - no. 2. - Pp. 149-154.

62. International Code of Botanical Nomenclature (Saint Louis Code) / W. Greuter, J. McNeill, F. R. Barrie et al. — Konigstein: Koeltz Scientific Books, 2000.

63. International Code of Zoological Nomenclature / W. Ride, H. Cogger, C. Dupuis et al. — 1999.

64. Irvine, A. D. Russells paradox / A. D. Irvine // The Stanford Encyclopedia of Philosophy / Ed. by E. N. Zalta.— Summer 2004.http://plato.stanford.edu / archives/sum2004/entries/russell-paradox/.

65. J., S. G. Trichoderma: A review of biology and systematics of the genus / S. G. J. // Mycol Res. 1996. - Vol. 100. - Pp. 923-935.

66. J.Felsenstein. Evolutionary trees from dna sequences: a maximum likelihood approach / J.Felsenstein // J. Mol. Evol- 1981.- Vol. 17.- Pp. 368-376.

67. Ji, S. The cell as the smallest dna-based molecular computer / S. Ji // Biosystems. 1999. - Vol. 52, no. 3. - Pp. 123-133.

68. Jones, M. P. The Hugs 98 user manual. — 1999. — Available from urlhttp: //www.haskell.org/hugs/.

69. Kay, A. Smalltalk-72 instruction manual: Technical Report SSL-76-6 / A. Kay, A. Goldberg. Palo Alto (CA), USA: Xerox PARC, 1976.

70. Kay, A. C. The Reactive Engine: Ph.D. thesis / Dept. of Electrical Engineering, Computer Science,University of Utah. — Ann Arbor, Michigan, 1969.

71. Kay, A. G The early history of Smalltalk / A. C. Kay // ACM SIGPLAN Notices. Vol. 28. - ACM Press, 1993. - Pp. 69-95.

72. Kelsey, R. Revised5 report on the algorithmic language Scheme / R. Kelsey, W. Clinger, J. R. editors] // Higher-Order and Symbolic Computation.—1998.- Vol. 11, no. 1.- Pp. 7-104,- Also appeared in SIGPLAN Notices 33:9, September 1998.

73. Kleene. Recursive predicates and quantifiers / Kleene // Martin Davis, The Undecidable. — New York: Raven Press, 1965.

74. Kolmogorov, A. N. Three approaches to the quantitative definition of information / A. N. Kolmogorov // Problems of Information Transmission. — 1965. — Vol. 1, no. 1. — Pp. 1-7.

75. Kubicek, C. P. Trichoderma and Gliocladium, Basic Biology, Taxonomy and Genetics / C. P. Kubicek, G. E. Harman.— Taylor and Francis, 1998.— P. 278.

76. Lake, J. A. Origin of the cukarvotic nucleus determind by rate-invriant analysis of rrna sequences / J. A. Lake // Nature.— 1988.— Vol. 331.— Pp. 184-186.

77. Leach, P. J. A universally unique identifier (uuid) urn namespace: Tech. rep. / P. J. Leach, M. Mealling, R. Salz: Internet proposed standard RFC 4122, 2005.

78. Linneus, C. Philosophia botanica / C. Linneus.— Stockholm: G: G. Kiesewetter, 1750.

79. Longo, G. Computer modelling and natural phenomena / G. Longo // Proceedings of the European Software Engineering Conference. — Helsinki, Finland: 2003.

80. Malpas, J. Prolog: a Relational Language and Its Applications / J. Malpas. — Prentice-Hall, 1987.-P. 400.

81. McCabe, T. A complexity measure / T. McCabe // IEEE Transactions on Software Engineering. — Vol. 6. — Pp. 308-320.

82. McCarthy, J. Recursive functions of symbolic expressions and their computation by machine, p;.11 / J. McCarthy // Comm. A.C.M. — 1960. — Vol. 3.- Pp. 184-195.

83. McCarthy, J. Programs with common sense / J. McCarthy // Semantic information processing / Ed. by M. Minsky. — MIT press, 1968. — Pp. 410418.

84. Ming, L. An introduction to Kolmogorov complexity and its applications / L. Ming, P. Vitanyl. — 2nd edition. — New York: Springer-Verlag, 1997. — P. 656.

85. Minsky, M. Nature abhors an empty vacuum: Tech. Rep. AIM-647 / M. Minsky: MIT Artificial Intelligence Laboratory, 1981.ftp: //publications.ai.mit.edu/ai-publications /500-999/ AIM-647.ps;.

86. Molecular cloning of genes encoding major two subunits of a eubacterial v-type atpase from thermus therinophilus / S. Tsutsumi, K. Denda, T. Oshima et al. // Biochim. Biophys. Acta. 1991. - Vol. 1098.- Pp. 13-20.

87. Nanoarchaea: representatives of a novel archaeal phylum or a fast-evolving euryarchaeal lineage related to thermococcales? / C. Brochier, S. Gribaldo2, Y. Zivanovic et al. // Genome Biology. 2002. - Vol. 6.- P. R42.

88. New species of trichoderma from asia / J. Bissett, I.Druzhinina, C.Gradinger et al. // Can. J. Bot.- 2003,- Vol. 81, no. 6.- Pp. 570586.

89. Okamura, B. Ultrastructure of buddenbrockia identifies it as a myxozoan and verifies the bilaterian origin of the myxozoa / B. Okamura, T. S. Wood, E. U. Canning // Parasitology. 2002. - Vol. 124. - Pp. 215-223.

90. Page, C. The professional programmers guide to Fortran 77 / C. Page. The Professional programmers guide to-.— pub-PITMAN:adr: Pitman Publishing Ltd., 1988. P. 180.

91. Perspectives on archaeal diversity, thermophily and monophyly from environmental rrna sequences / S. Barns, C. F. Delwiche, J. D. Palmer, N. R. P. and // BProc. Natl. Acad. Sci. 1996. - Vol. 93. - Pp. 9188-9193.

92. Phylogenetic structure of the prokarvotic domain the primary kingddms // Proc. Natl. Acad. Sci. 1977. - Vol. 74. - Pp. 5088-5090.

93. Robinson, A. A machine-oriented logic based on resolution principle / A. Robinson // Journal of the ACM. 1965. - Vol. 12. - Pp. 23-41.

94. Russell, B. The Principles of Mathematics / B. Russell— 2 edition.— London: George Allen and Unwin, 1937.

95. Saitou, N. The neighbor-joining method: a new method for reconstructing phylogenetic trees / N. Saitou, M. Nei // Mol Biol Evol. — 1987. — Vol. 4. — Pp. 406-425.

96. Schmidhuber, J. A computer scientist's view of life, the universe, and everything / J. Schmidhuber // Lecture Notes in Computer Science1997.- Vol. 1337.- Pp. 201-208. top://iink .springerny.com/link/scrvicc/scrics/0558/bibs/1337/13370201.htm.

97. Shagrir, O. Super-tasks, accelerating turing machines and uncomputability / O. Shagrir // Theor. Comput. Sci. 2004. - Vol. 317, no. 1-3.- Pp. 105114. http://dx.doi.org/10.1016/j.tcs.2003.12.007.

98. Siegelmann, H. T. The simple dynamics of super turing theories / H. T. Siegelmann // Theor. Comput. Sci- 1996.- Vol. 168, no. 2.Pp. 461-472. http://dx.doi.org/10.1016/S0304-3975(96)00087-4.

99. The similarity metric / M.Li, X. Chen, X. Li et al. // IEEE Transactions on Information Theory. 2004. - Vol. 50, no. 12. - Pp. 3250-3264.

100. Simula Begin / G. M. Birtwistle, O.-J. Dahl, B. Myhrhaug, K. Nygaard. — Philadelphia: Studentlitteratur Auerbach, 1973. — P. 391.

101. Sneath, P. International Code of Nomenclature of Bacteria / P. Sneath. — International Committee on Systematic Bacteriology, 1992.

102. Sokal, R. R. Principles of numerical taxonomy / R. R. Sokal, P. Sneath. — San Francisco: W. H. Freeman к Co., 1963. P. 359.

103. Sokal, R. R. Numerical taxonomy. The principles and practice of numerical classification / R. R. Sokal, P. Sneath. — San Francisco: W. H. Freeman к Co., 1973.-P. 588.

104. Solomonoff, R. A formal theory of inductive inference / R. Solomonoff // Information and Control — 1964. — Vol. 7, no. 1. — Pp. 1-22.

105. Species names in phylogenetic nomenclature / P. D. Cantino, H. Bryant, H. de Queiroz et al. // Systematic Biology. 1999.— Vol. 48.- Pp. 790807.

106. Steele, Jr., G. L. COMMON LISP: the language / G. L. Steele, Jr. Second edition. - 12 Crosby Drive, Bedford, MA 01730, USA: Digital Press, 1990. -Pp. xxiii + 1029.

107. Stroustrup, B. A history of С++: 1979-1991 / B. Stroustrup // Proceedings of the Conference on History of Programming Languages / Ed. by R. L. Wexelblat. — Vol. 28(3) of ACM Sigplan Notices.- New York, NY, USA: ACM Press, 1993. Pp. 271-298.

108. Syntactic recognition of regulatory regions in Escherichia coli / D. A. Rosenblueth, D. Thieffry, A. M. Huerta et al. // Comput Appl Biosci. — 1996. Vol. 12, no. 5. - Pp. 415-422.

109. Turing, A. M. Computability and lambda-definability / A. M. Turing // Journal of Symbolic Logic. — 1937. — Vol. 2. — Pp. 153-163.

110. Turing, A. M. Systems of logic based on ordinals / A. M. Turing // Proceedings of the London Mathematical Society. Second Series. — 1939. — Vol. 45.-Pp. 161-228.

111. Two new species of trichoderma from yunnan, china / Z.-F. Yu, M. Qiao, Y. Zhang, K.-Q. Zhang // Antonie van Leeuwenhoek. — 2007. — Vol. 92. — Pp. 101-108.

112. Warren, D. H. D. An abstract Prolog instruction set: Tech. Rep. 309 /D. H. D. Warren: SRI International, 1983.

113. Warren, D. H. D. PROLOG: The language and its implementation compared with LISP / D. H. D. Warren, L. M. Pereira, F. Pereira // SIGPLAN Notices. 1977. - Vol. 12, no. 8. - Pp. 109-115.

114. Woese, C. R. Bacterial evolution / G. R. Woese // Microbiol. Rev. 1987. -Vol. 57.-Pp. 221-271.

115. Woese, C. R. Towards anatural systcmof organisms: proposal for the domains archaea,bacteria, and eucarya / C. R. Woese // Proc. Natl Acad. ScL — 1990. Vol. 87. - Pp. 4576-4579.

116. Wolfram, S. New Kind of Science / S. Wolfram. Wolfram Media, 2002. -P. 1197.

117. Zach, R. Hilberts program / R. Zach // The Stanford Encyclopedia of Philosophy / Ed. by E. N. Zalta.- 2003.http://plato.st£mford.cdu/axchivcs/fall2003/cntrics/hilbcrt-program/.

118. Zuckerkandl, E. Molecules as documents of evolutionary history /E. Zuckerkandl, L. Pauling // J. Theor Biol. 1965. - Vol. 8, no. 2. -Pp. 357-366.