Бесплатный автореферат и диссертация по сельскому хозяйству на тему
Создание базы данных по генофонду вишни и использование ее в селекции
ВАК РФ 06.01.05, Селекция и семеноводство

Автореферат диссертации по теме "Создание базы данных по генофонду вишни и использование ее в селекции"

всероссийский научно-исследовательский институт генетики и селекции плодовых растений имени и. в. мичурина

Р Г 6

1 5 ДЕЛ ...

На правах рукописи

Насонов

Владислав Валентинович

Создание базы данных по генофонду вишни и использование её в селекции

Специальность 06.01.05 - Селекция и семеноводство

Автореферат диссертации на соискание ученой степени кандидата сельскохозяйственных наук

Мичуринск-1996

Работа выполнена во Всероссийском научно-исследовательском институте генетики и селекции плодовых растений имени И. В. Мичурина

Научный руководитель-

доктор сельскохозяйственных наук, профессор В. Е. Перфильев Официальные оппоненты-

доктор сельскохозяйственных наук, профессор В.М. Лебедев кандидат сельскохозяйственных наукТ.В. Морозова

Ведущая организация-

Всероссийский научно-исследовательский институт селекции плодовых культур

Защита состоится 10 декабря 199б<. в . — на заседании диссертационного совета Д120.18.01 при Мичуринской государственной сельскохозяйственной академии по адресу: 393740, г. Мичуринск, Тамбовская область, ул. Интернациональная, 101

С диссертацией можно ознакомиться в библиотеке Мичуринской государственной сельскохозяйственной академии

Отзывы на автореферат в двух экземплярах, заверенные и скрепленные гербовой печатью, просим направлять ученому секретарю совета.

Автореферат разослан ноября 1996г.

Ученый секретарь диссертационного

совета Д120.18.01, доцент / // , у Ю. В Трунов

Общая характеристика работы

Исследования направлены на разработку концепции создания баз данных по плодовым культурам и реализацию на ЭВМ методов подбора родительских компонент для схрещивания. Решение поставленных вопросов проводилось для одной культуры - вишни. Отработанные на этой культуре алгоритмы легко могут быть перенесены на другие плодовые культуры.

Актуальность проблемы. Успех в получении новых сортов растений с использованием гибридизации во многом зависит от правильного выбора родительских компонент. Решение этого вопроса еще не нашло должного разрешения.

Идеальным методом подбора родительских компонент следует считать тот, который позволил бы для любой пары форм растений вычислить вероятность получения гибрида, обладающего требуемыми характеристиками, но таких методов для плодовых растений не разработано. В отсутствии таких методов большую пользу могут оказать методы, которые хотя непосредственно и не позволяют вычислить вероятность получения гибрида с определенным«; свойствами, но позволяют зыязить, какая из родительских пар в сравнении ^ другой парой обладает большей вероятностью получения такого гибрида. Используя евклидово расстояние, в какой-то мере это можно осуществить. Есть и другие методы, которые позволит это сделать, но все они, как впрочем и метод, использующий евклидово расстояние, требуют обработки больших объемов данных, что без использования ЭВМ затруднительно. Создание ЭВМ-программ, осуществляющих только вычислительные процедуры, для большинства методов несложно, но эффективность применения их существенно повышается, если их использовать совместно с программами, позволяющими специальным образом организовывать данные, т. е. с базами данных. Поэтому задача создания баз данных по плодовым культурам весьма актуальна. Цель и задачи исследований. Основной целью проводимых исследований является разработка методов и средств, повышающих результативность селекции плодовых растений.

Исследования по теме предусматривали решение , следующих задач.

1. Разработка концепции создания баз данных по плодовым культурам.

2. Создание базы данных по генофонду вишни.

3. Реализация на ЭВМ с использованием базы данных методов подбора родительских пар для гибридизации, которые основаны на:

а) применении евклидова расстояния для оценки степени различия сортов между собой по комплексу признаков; 6) взаимном дополнении признаков.

4. Выявление области применимости выбранных методов подбора родительских пар.

Научная новизна результатов и практическое значение.

Разработана концепция создания баз данных по плодовым растениям, на основе которой создан комплекс программных средств, обеспечивающий ведение баз данных по генофонду вишни.

С использованием базы данных реализованы на ЭВМ два широкоприменяемых селекционерами принципа подбора родительских пар. Первый, основан на выборе одной родительской формы, обладающей высокими уровнями тех интересующих селекционера признаков, которые у другой родительской формы недостаточно выражены. Согласно второму принципу родительские формы подбираются исходя из оценки генотипической удаленности их друг от друга. Оценивают t енотилическую удаленность с помощью евклидова расстояния. Все разработанные программные средства имеют законченный вид и ориентированы на использование непосредственно селекционерами, т. е. слабо подготовленными пользователями ЭВМ.

Найден еще один способ проверки утверждения: "Большим значениям евклидова расстояния, рассчитанным для разных родительских пар по комплексу признаков, соответствует большая вероятность получения нового сорта".

Апробация работ. Материалы настоящей работы докладывались: на областной научно-производственной конференции, проходившей 25 -26 ноября 1993 года в г. Мичуринске; на научной конференции профессорско-преподавательского состава, научных сотрудников и аспирантов 12-15 апреля 1994 года в г. Мичуринске; на XVI Мичуринских чтениях в 1995 году; на Ученом совете ВНИИГиСПР им. И. В. Мичурина (1993 - 1995 годы). По результатам исследований опубликованы 4 работы.

Структура диссертации. Диссертация состоит из введения, постановки задач исследований, четырех глав, заключения, списка использованной литературы и четырех приложений. Р*абота изложена на 150 страницах, из которых текст составляет 116 страниц. Диссертация содержит 37 таблиц и 11 рисунков.

Содержание работы

Во введении кратко излагаются методы селекции плодовых растений, при этом акцентируется внимание на способах подбора родительских 4

пар. Подчеркивается, что ряд известных методов (к которым мы относим и методы, основанные на вычислении евклидова расстояния и расстояния Махаланобиса), эффективность применения которых в селекции различных культур доказана, в селекции плодовых растений не нашли широкого распространения. Это связывается с трудностями проведения вычислений при наличии больших объемов данных. Подобные затруднения снимаются, если используется ЭВМ. Рассматриваются этапы решения задач на ЭВМ. Обосновывается необходимость создания баз данных по плодовым растениям.

Глава 1. Разработка базы данных по сортам вишни

В содержание этой главы входит рассмотрение вопросов, относящихся к созданию баз данных вообще и, в частности, к базам данных, ориентированным на применение их в селекции плодовых растений. Изложение начинается с рассмотрения основных терминологических понятий, относящихся к базам данных, и их конкретизации. Описываются общие требования к базам данных, а также на примере базы данных по сортам вишни раскрываются предложенная нами структура базы данных по плодовым растениям и ее функциональные возможности. Подчеркивается, что ключевым моментом в разработке базы данных является создание классификатора.

При создании классификатора мы старались: 1) сохранить традиции, которые сложились у селекционеров, сортоведов в описании формообразцов плодовых растений; 2) учесть уже существующие классификаторы (использовали классификаторы созданные во ВНИИ растениеводства им. Н. И. Вавилова); 3) выбрать способ кодирования признаков, который обеспечил бы экономию памяти ЭВМ и удобство использования в вычислениях; 4) обеспечить единый подход в кодировании всех признаков; 5) включить в состав классификатора такие признаки (из числа используемых селекционерами), которые наиболее полно отразили бы генетическую природу сорта, а их количество было бы небольшим.

Кодирование всех количественных и качественных признаков ведется по единой пятибалльной шкале. Баллам шкалы соответствуют следующие значения (эффекты) проявления признаков: 1-очень низкий; 2-низкий; 3-средний; 4-высокий; 5-очень высокий. Классификатор содержит описание 32 признаков (тип роста, сила роста, форма кроны, густота кроны, величина листа, размер плода, форма плода, окраска плода, окраска сока, плотность мякоти, размер косточки, доля косточки в массе плода, срок массового цветения, срок созревания плодов,

5

одновременность созревания плодов, возраст вступления в плодоношение, степень самоплодности, тип цветения и плодоношения, зимостойкость древесины в суровые зимы, зимостойкость цветковых почек, устойчивость к коккомикозу, средняя урожайность, продуктивность, привлекательность, вкус плода, характер вкуса, отрыв плодоножки от плода, назначение сорта, содержание сухих веществ, содержание Сахаров, содержание свободных кислот, содержание аскорбиновой кислоты) и других характеристик (пояснений), к которым мы относим собственно имя генотипа, его синонимы, принадлежность к виду, происхождение генотипа, генетико-селекционное значение, наличие выявленных генов, место получения, зона промышленного возделывания и источник информации, из которого берутся сведения при описании растения.

Составленный нами классификатор полностью определил структуру данных базы данных CERASUS. Возможности (функции), которыми обладает программный комплекс базы данных CERASUS, в основном типичны для баз данных: ввод данных по сортам; редактирование уже введенных данных; отбор данных по образцу (шаблону поиска); просмотр данных; формирование и печать отчетов по результатам поиска. Кроме этих типичных функций введены функции "отображение", "файл" и "гибридизация". Необходимость в последних двух функциях объясняется тем, что созданная база данных ориентирована в основном на селекционера и, в частности, для выполнения им ответственного момента в селекции плодовых растений -подбора компонент для скрещиваний. При создании баз данных удобно пользоваться специально разработанными для этих целей системами управления баз данных (СУБД) реляционного типа. Нами использовалась СУБД Fox BASE+.

Структурная схема разработанной нами базы данных по сортам вишни (названная CERASUS) приведена на рисунке 1. На языке FoxBASE был создан комплекс программных средств (приложений), реализующих вышеперечисленный набор функций. С целью расширения числа категорий пользователей базой данных (селекционеры, сортоведы, агрономы и т. п.) весь пакет программных средств разбит на три группы ("редактор", "выборка", "гибридизация")(см. рис. 1.), которые могут устанавливаться и функционировать на компьютере независимо друг от друга. Необходимые для работы этих приложений элементы информационного уровня указаны на рисунке стрелками-связями.

Редактор базы данных служит для пополнения базы данных новыми записями, исправления любой из ранее введенной и удаления 6

Рис. 1. Структурная схема базы данных СЕЯАБиЗ

любой записи. При вводе новых записей происходит проверка совпадения имени генот^ла для вновь вводимой записи с онами генотипов записей, которые уже ранее были введены. Пос-г ...у нельзя создать □ базе данных две записи с одним и тем же именем генотипа. В режимах исправления или удаления предусмотрен ввод пароля доступа к данным, что обеспечивает защиту данных от несанкционированного доступа.

Программа выборки данных создана с целью получения разнообразной информации о сортах и формах вишни и формирования отчетов. Здесь реализованы следующие основные функции: последовательный просмотр всех записей, задание шаблона поиска и просмотр всех записей, отобранных согласно заданному шаблону поиска. В режиме последовательного просмотра можно осуществлять последовательное отображение на экране монитора всех записей основной базы данных. Эта операция осуществляется наподобие операции последовательного перебора всех карточек картотеки.

Для целенаправленного поиска записей, т. е. записей, которые обладали бы заданным сочетанием необходимых пользователю характеристик, служит режим задания шаблона. В результате поиска по шаблону формируется новая база данных, на рис. 1 обозначенная как выборочная. Выборочная база данных содержит только те записи основной, которые в точности соответствуют заданию шаблона поиска.

Содержимое выборочной базы данных можно просмотреть на экране или вывести на печатающее устройство. При просмотре записей основной или выборочной базы данных можно выводить на экран только интересующие пользователя характеристики. Для выбора признаков, которые будут выводиться (отображаться) на экране при просмотре, служит режим "отображения". Заданные в режиме "отображения" признаки, также будут выводиться на печатающее устройство при выполнении функции "отчет". В режиме "отчет" можно задавать режимы печати (шрифт, интервал между строками, количество строк на странице, нумерацию страниц) и предварительно просмотреть текст, который будет выведен на печать.

Включение в программу выборки данных подпрограмм, реализующих метод подбора родительских пар с использованием евклидова расстояния и ряда дополнительных возможностей, была построена программа, которая на рисунке 1 обозначается как "гибридизация". Для вычисления евклидова расстояния используются записи выборочной базы данных, поэтому прежде чем перейти непосредственно к запуску функции "гибридизация" необходимо, используя возможности функции "шаблон", из основной базы данных отобрать требуемые записи.

Реализованная по предложенной схеме ^ яза данных позволяет: 1) обеспечить необходимую защиту данных, т. к. программы редр тирования и программы выборки запускаются на выполнение по очереди, а также потому, что в самой программе редактирования данных приняты дополнительные меры предосторожности; 2) увеличивать количество приложений, решающих различные задачи, используя данные БД независимо от наличия других приложений. Второе свойство является наиболее важным, т. к. созданные программы морально быстро устаревают, а сами данные могут представлять интерес десятки лет.

База данных СЕКАЭиЗ в основном содержит описание сортов вишни. На первых этапах формирования базы данных Л. Е. Курсаковой, сортоведом ВНИИГ и СПР им. И. В. Мичурина, были предоставлены данные по 100 сортам, имеющие усредненые за ряд лет характеристики, и данные, полученные в ходе ежегодных, преимущественно с 1980 по 1992 годы, наблюдений. Общее число записей по годичным наблюдением - 1030. Дальнейшее пополнение базы данных осуществлялось данными по сортам вишни, описанным в разных литературных источниках. В настоящее время база данных содержит описание более чем 250 сортов, представляющее собой усредненные за ряд лет характеристики. С целью предоставления более полной 8

информации по культуре вишни, а базу данных было внесено описание шести видов. Это С. vulgaris Mill - вишня обыкновенная; С. avium (L.) Moench - черешня (вишня птичья); С. fruticosa (Pall) - вишня степная (кустарниковая); С. sachaliensis(Fr. Schmidt) - вишня сахалинская; С. kurilensis(Miyabe) - вишня курильская; С. maackii(Rupr.) - Черемуха Маака.

Глава 2. Анализ корреляционных взаимосвязей признаков

Эта глава посвящена выявлению тесно взаимосвязных пар признаков. В данной диссертации проведение этого анализа необходимо для правильного выбора признаков, входящих в вычисление евклидова расстояния.

Исследование корреляционой связи производилось между всеми признаками, описывающими сорт в базе данных (кроме признаков "назначение сорта", "тип цветения и плодоношения"). Вычисляли коэффициенты корреляции отдельно по двум наборам сортов (первый набор состоит из 98 сортов, описанных П. Е. Курсаковой, а второй набор состоит из 79 сортов, описанных у А. Ф. Колесниковой). Общее количество пар признаков, для которых вычисляли коэффициент корреляции, равняется 430. Считали, что корреляционная связь признаков установлена, если коэффициенты корреляции, вычисленные для одной и той же пары признаков, но по обоим наборам, одновременно значимы при одно- или пятипрс*Аентном уровне. Сильно коррелирующими Парами признаков считали такие, для которых коэффициент корреляции значим ы больше или равен 0,45. Выявлено 19 таких пар (окраска плода-окраска сока (0.91±0.07); вкус плода -характер вкуса (0.83+0.09); сила роста -величина листа (0.71±0.11); размер плода -привлекательность (0.67+0.12); размер косточки -доля косточки в массе плода (0.67Ю.12); срок массового цветения -срок созревания плодов (0.6±0.13); привлекательность -вкус плода (0.59±0.13); сипа роста -возраст вступления в плодоношение (0.56Ю.13); привлекательность -характер вкуса (0.56Ю.13); вкус плода -содержание Сахаров (0.53±0.14); величина листа -привлекательность (0.53±0.14); величина листа -возраст вступления в плодоношение (0.52±0.14); тип роста -сила роста (0.51±0.14); величина листа -размер плода (0.48±0.14); содержание сухого вещества -содержание Сахаров (0.48±0.14); тип роста -величина листа (0.47Ю.14); вкус плода -содержание сухого вещества (0.46±0.14); сила роста -привлекательность (0.46±0.14); привлекательность -содержание сухого вещества (0.45Ю.15)).

Г лава 3. Приведение данных, полученных в других почвенно-климатических пунктах, к одному Если Непосредственно использовать данные о растениях, полученные в различных почвенно-климатических условиях, для сравнительной их оценки, то это может привести к существенным ошибкам, поэтому необходим механизм коррекции (приведения) данных из разных пунктов к одному (назовем его базовым), а затем эти откорректированные данные уже использовать. Готового математического аппарата, выполняющего такие преобразования, найти не удалось, поэтому для начала работ в этом направлении было решено исследовать возможности применения линейной модели вида у=ах+Ь, где у -значение признака в базовом пункте; х - значение этого же признака в пункте изучения растения; а и Ь - искомые постоянные коэффициенты Для нахождения коэффициентов а и Ь требуется, чтобы была совокупность форм растений, которые изучались бы в обоих пунктах. В базе данных было 24 сорта, которые изучались и в городе Мичуринске, и в городе Орле. Эта совокупность сортов и была взята для нахождения коэффициентов, а и Ь уравнений преобразований. Нахождение этих коэффициентов (для каждого признака из 30) осуществлялось методом наименьших квадратов. При анализе каждо." уравнения мы выясняли вопрос: "Что лучше? Взять данные из пункта Орел без изменения или произвести их пересчет и занести в базу данных их целочисленные значения, которые получены из уравнения округлением". При ответе на этот вопрос , т. е. по рути на вопрос о доверии полученному уравнению, учитывали значение коэффициента детерминации, расположение исходных данных в таблице, анализ уравнения для целых значений, а главное биологические соображения. Всего было получено и проанализировано 28 уравнений (по двум признакам для вывода уравнений было недостаточно данных). В результате для коррекции данных, полученных в Орле, нами приняты 11 уравнений (Сила роста-у=0,42х+1,71; Густота кроны- у=0,63х+0,98; Размер плода- у=0,68х+1,02; Форма плода- у=0,64х+0,77; Окраска сока- у=0,78х+1,06; Размер косточки- у=0,74х+0,67; Срок массового цветения- у=0,53х+1,30; Возраст вступления в плодоношение- у=0,42х+1,85; Устойчивость к коккомикозу-у=0,44х+1,99; Вкус плода- у=0,71х+1,04; Содержание сахаров-у=0,65х+1,34).

В результате проведенных исследований можно сказать, что для получения уравнений преобразований необходимо брать более генетически разнородный материал, а не только сорта, характеристики которых смещены в сторону лучших с хозяйственной точки зрения 10

значений. Сам подход в решении данной задачи, который основан на поиске функции преобразования одного признака без учета сложных взаимосвязей с другими признаками, тоже требует дальнейших проверок.

Глава 4. Использование базы данных СЕЯАЗЦв для подбора родительских пар вишни

В этой главе описываются два разработанных нами алгоритма подбора родительских пар и даются некоторые теоретические предпосылки, обосновывающие их применение в селекции для близкородственных форм растений. Первый алгоритм основан на принципе подбора пар родителей по взаимному дополнению признаков, а второй основан на вычислении евклидова расстояния.

В ряде методик по селекции и в работах отдельных авторов рекомендуется выбирать одного из родителей (обычно материнскую форму) из числа высоко адаптивных местных сортов, а второго- из числа лучших сортов мирового сортимента. Родительские компоненты по возможности должны выделяться высокой устойчивостью к низким температурам, болезням и вредителям, и один и тот же нежелательный уровень признака не должен находиться у обоих родителей, а также желательно, чтобы у одного из родителей присутствовало максимальное число селектируемых признаков в их максимальном выражении. Целью селекции обычно является достижение определенных значений признаков, назовем их контрольными значениями. Для того чтобы учесть все эти условия, был разработан первый алгоритм подбора родительских пар, использующий базу данных, который включает в себя 8 пунктов:

1. На основании селекционного задания определяют контрольные значения признаков, которые желательно иметь у потомства и тип ограничений, т. е. направление улучшения их, а также, если необходимо, значения экспертных оценок;

2. Определившаяся на первом этапе совокупность признаков разбивается на две группы. В первую группу входят признаки, улучшению которых в данной местности уделяется особое внимание. Вторая группа состоит из признаков, которые не вошли в первую группу;

3. Используя возможности быстрого целенаправленного поиска (режим "шаблон") в базе данных форм растений с заданным сочетанием признаков, выбирают формы, удовлетворяющие ограничениям, которые налагаются на признаки первой и второй групп по отдельности. В результате поиска образуются две совокупности сортов. Первую совокупность образуют формы, удовлетворяющие ограничениям,

налагаемым на признаки, вошедшие в первую группу признаков. Из этой совокупности будет выбираться первый родитель. Вторую совокупность образуют формы, удовлетворяющие ограничениям, налагаемым на признаки, вошедшие во вторую группу признаков, из неё будет выбираться второй родитель;

4. Используя соответствующие возможности БД по просмотру характеристик сортов и удалению ненужных записей, в первой совокупности оставляют для дальнейшей работы преимущественно формы, хорошо адаптированные к местным условиям. Вторая совокупность форм на этом этапе алгоритма не изменяется, и будет представлять собой достижения мировой селекции по указанным признакам;

5. В обоих совокупностях сортов удаляют формы с крайне нежелательной выраженностью признаков. При этом, для первой совокупности форм анализируют на эту особенность только вторую группу признаков, а для' второй совокупности анализируют только первую группу признаков. Можно, если а этом есть крайняя необходимость, в обоих совокупностях проанапизировать и другие признаки, не вошедшие а список признаков, на которые ведётся селекция;

6. Для каждой родительской пары (общее количество их равно произведению количества форм, находящихся в первой и второй совокупностях сортов) вычисляют функцию близости и подсчитывают количество невыполненных ограничений. Родительские пары сортируют по убыванию значений функции качества;

7. В ранжированном списке выбирают родительские пары, для которых число невыполненных ограничений равно нулю, и эти пары считают перспективными для селекции. Среди этих перспективных пар лучшими будут те, у которых значения функции близости будут больше. В случае, если пар, для которых невыполненых ограничений, равных нулю, нет или эти пары по каким либо соображениям не удовлетворяют селекционера, то выбирают пары, у которых есть только одно нарушение, если и таких пар тоже нет, то выбирают пары с двумя нарушенными ограничениями и так далее;

8. При выборе среди родительских пар, имеющих относительно малый разброс в значении функции "близости, предпочтение отдают тем из них, у которых родители имеют разное происхождение или выделены в разных природно-климатических пунктах.

В этом алгоритме для целей классификации родительских пар по степени предпочтительности их в селекции служит функция близости 12

где х," - контрольное значение признака, х, = (х,1 + х} )/2 - среднее значение 1-го признака родителей, л, - количество признаков, значения которых у гибрида желательно иметь меньше, чем контрольное, а п2 -количество признаков, значения которых желательно иметь больше, чем контрольное, п,+пг=:п - общее количество признаков, на которые ведётся селекция. Согласно этой формуле, если для всех значений х, выполняются заданные ограничения, т. е. средние арифметические значения (средние значения признаков по потомству), будут лучше, чем контрольные, то сумма разностей вй будет положительной. Наоборот, если ни одно ограничение не выполняется, то функция близости Эй будет меньше нуля. В случаях, когда часть ограничений выполняется, а часть нет, функция близости может быть как меньше, так и больше нуля.

Признаки можно оценивать по степени важности их в селекции, задавая им конкретные цифровые значения, например, по пятибалльной шкале. Тогда удобнее давать больше баллов тем признакам, которые являются более важными в селекции. Оценки важности признаков в основном зависят от целей селекции и задаются экспер~зми, поэтому их называют экспертными оценками. С учетом экспертных оценок функция близости (подобный подход использует С. П. Мартынов,1989) примет вид

где - весовой коэффициент ¡-го признака, а V»,- значение

экспертной оценки , которая должна быть строго больше нуля.

Операции вычисления значений функции близости БО и ранжирование списка родительских пар по убыванию Бй производятся по программе (составлены две программы, одна из которых отличается от другой возможностью задания экспертных оценок), для работы которой с помощью текстового редактора подготавливаются файлы данных, содержащие характеристики сортов по п признакам.

Рассматриваемый алгоритм использовался нами для подбора родительских пар. Контрольные параметры для этого подбора были сформированы на основании требований, предъявляемых к новым сортам вишни для Центрально- Черноземной зоны во ВНИИГ и СПР им. И. В. Мичурина:

п

¡=1

1. Зимостойкость древесины- высокая (2 и меньше);

2. Зимостойкость цветковых почек-устойчивые (2 и меньше);

3. Устойчивость к коккомикозу -довольно высокая (2 и меньше);

4. Вкус плода- вполне удовлетворительный (3 и больше);

5. Продуктивность -средняя (3 и больше);

6. Размер плода -выше среднего (4 и больше);

7. Сила роста -среднерослое (3 и меньше).

Здесь название семи признаков и условные названия значений их приводятся согласно классификатору, а в скобках цифрой указывается порядковый номер в пределах пятибалльной шкалы кодирования значений признаков согласно этому же классификатору и направление их улучшения.

Материнское растение выбирали из числа высокоадаптивных местных сортов, при этом ориентировались на сорта, имеющие значения признаков "Зимостойкость древесины", "Зимостойкость цветковых почек", "Устойчивость к коккомикозу", удовлетворяющие вышеприведенные требования, а отцовское растение аибирали на основании этих же условий, но использовали признаки "Вкус плода", "Продуктивность", "Размер плода", "Сила роста". В результате десятку лучших образовали пары: Тамарис х Встреча; Памяти Вавилова х Встреча: Тамарис х Заря Татарии; Тамарис х Субботчрская; Алмаз х Встреча; Тамари.с х Призвание; Уральская рубиновая х Встреча; Тамарис х Гриот волгоградский; Памяти' Вавилова х Субботинская; Памяти Вавилова х Заря Татарии. К ч^^лу наименее перспективных пар для селекции следует отнести комбинации: Уральская рубиновая х Бирюлевсхая; Орловская ранняя х Бирюлевская; Орловская ранняя х Добрая; Уральская рубиновая х Добрая; Алмаз х Бирюлевская.

Второй алгоритм подбора родительских пар основан на известном утверждении, что вероятность получения ценных гибридов тем больше, чем сильнее различаются между собой родительские формы. Для оценки степени различия форм растений между собой нами используется евклидово расстояние, вычисляемое по формуле

йп= X (хас-^к)2/п . где х1К и х1к - значения к-го признака у сортов ! и ]

V к=1

соответственно, п - количество признаков. Значения признаков берутся из базы данных, в которой они кодируются по пятибалльной шкале, что обеспечивает одинаковое влияние каждого признака на значение евклидова расстояния. Алгоритм подбора родительских пар, основанный на вычислении евклидова расстояния, реализован на ЭВМ

непосредственно в программе "гибридизация" базы данных СЕЯА81)3. Этот алгоритм предполагает выполнение следующих действий: 1. Выбор из общей совокупности таких сортов, которые вы желаете испытать или которые потенциально могут быть использованы в качестве родителей (этот пункт выполняет селекционер); 2. Для вычисления евклидова расстояния выбирают признаки, их число должно быть по возможности большое и они между собой должны иметь слабую связь (выполняет селекционер); 3. Для всех сортов проверяется наличие значений всех признаков, выбранных на предыдущем пункте алгоритма. Если хотя бы один признак у проверяемого сорта будет неопределен, то этот сорт исключается из дальнейшего рассмотрения. Список исключенных сортов выводится на экран дисплея (выполняет ЭВМ); 4. Вычисляются значения евклидова расстояния для всех пар, составленных по неполной диаллельной схеме скрещивания из сортов, оставшихся после выполнения пункта 3 алгоритма (выполняет ЭВМ); 5. Ранжируются пары по убыванию евклидова расстояния и ранжированный список пар выводится на экран дисплея (выполняет ЭВ.."}.

Согласно методу подбора родительских пар, использующему формулу вычисления евклидова расстояния, более перспективной в селекции парой считают ту, у кото; значение евклидова расстояния больше. Однако это утверждение не носит абсолютного характера, а носит вероятностный характер. Проверку этого утверждения проводили разные исследователи на разных культурах (Бебякян, Мартынов, 1971; Сичкарь, Луговой, Григорян, 1987; Перфильев, Лебедев, Тихонов, 1979). Нами была проведена проверка его на культуре вишня. Проверка заключалась в отборе сортов, которые были получены в результате гибридизации (брали только сорта, для которых материнская и отцовская формы были известны точно), в вычислении евклидова расстояния для родительских форм этих сортов, выявлении зависимости. В проверку мы включили только сорта, которые были переданы для Государственного сортоиспытания в средней полосе России. Образовался список, который содержит 47 наименований таких сортов, полученных от 25 родительских пар (прямые и обратные скрещивания мы не различаем). Евклидово расстояние вычисляли по двенадцати признакам (сила роста, размер плода, плотность мякоти, размер косточки, срок созревания плодов, возраст вступления в плодоношение, зимостойкость древесины, зимостойкость цветковых почек, устойчивость к коккомикозу, продуктивность, вкус плода, содержание сухих веществ). На основании собранных данных для этих сортов методом регрессионного анализа построено уравнение

15

е 2 1.9 1,8 1.7 1,6 1,5 1,4 1,3 1.2 1,t 1

/ / .

0,76 1,04 1.32 1,6 1,88 2,16 d Рис.2. Зависимость селекционной эффективности родительских пар вишни от евклидова расстояния (I - эмпирическая и 2 - расчетная линии)

e=0,47d+0,7, которое описывает зависимость селекционного эффекта е родительских пар от значения евклидова расстояния d (см. рис. 2). Считаем, что выявленная зависимость является еще одним подтверждением сформулированного выше утверждения.

Для выявления пар сортов, которые с точки зрения

рассматриваемого метода являются наиболее перспективными в селекции (имеют наибольшее значение евклидова расстояния), взяли 148 сортов, из которых образовали 10878 пар. Для каждой пары вычисляли значения евклидова расстояния по двенадцати признакам (признаки те же). Приведем здесь 20 пар, имеющих наибольшее значение евклидова расстояния: Мелитопольская десертная, Идеал (2,7); Мелитопольская десертная, Любская (2,53); Идеал, Подбельская (2,53); Идеал, Приметная (2,52); Мелитопольская десертная, Пятилетка (2,5); Мелитопольская десертная, Надежная (2,48); Мелитопольская л.есзртная, Бастард черешни (2,47); Мелитопольская десертная. Плодородная Мичурина (2,45); Подбельская, Алтайская ласточка (2,43); Подбельская, Надежная (2,43); Приметная, Бастард черешни (2,43); Надежная, Приметная (2,42); Мелитопольская десертная, Полевка (2,42); Мелитопольская десертная, Гриот Жукова (2,42); Свердловчанка, Превосходная Веньяминова (2,38); Шпанка курская, Любская (2,38); Идеал, Английская ранняя (2,36); Мелитопольская десертная. Урожайная (2,36); Идеал, Превосходная Веньяминова (2,36); Игрушка, Идеал (2,33).

Выводы

Результативность селекции во многом зависит от удачного выбора родительской пары для скрещивания. Однако пока еще мало методов, позволяющих это осуществить, используется в практической селекции. Это связано в первую очередь с плохой формализацией некоторых методов, т. е. представлением их в виде алгоритмов, а это в свою очередь сильно затрудняет применение вычислительной техники, 16

без которой использование этих методов малоэффективно. Отработка методов проводилась на культуре вишня. В итоге были получены следующие результаты, имеющие практическое значение.

1. Разработана концепция создания баз данных по плодовым культурам и создана база данных по генофонду вишни (названная CERASUS). Описание сортов в базе данных осуществляется в соответствии с классификатором, содержащим 41 характеристику генотипа. База данных по генофонду вишни, постоянно пополняющаяся, содержит данные по более чем 250 сортам и сведения по 6 видам рода Cerasus Mill.

2. Составлен классификатор для базы данных, который содержит описание 32 признаков, других характеристик и пояснений к генотипу. Кодирование каждого признака осуществляется по пятибалльной шкале, что обеспечивает: 1) непосредственное использование кодов признаков при математических вычислениях, не прибегая к их нормировке; 2) единообразие представления признаков на экране дисплея; 3) экономию пространства магнитных дисков, так как на один признак требуется один байт.

3. Разработанные программные средства оослуж,<зания базы данных разделены на три независимо работающих программы -программы ввода и редактирования данных, программы пользования, програ?.шы гибридизации. В программах реализована возможность работы с базой данных неподготовленных в программировании специалистов. Программные средства предоставляют пользователю базы данных следующие основные возможности: 1) вводить данные как ежегодных наблюдений, так и усредненные за ряд лет изучения растения; 2) редактировать уже введенную информацию; 3) последовательно просматривать характеристики всех генотипов; 4) отбирать из общего числа сортов такие, которые обладают интересующем исследователя сочетанием признаков. 5) вычислять значения евклидова расстояния для любой пары сортов и выводить на экран ранжированные по этому значению списки этих пар; 6) выводить характеристики генотипов на печатающее устройство.

4. С использованием ЭВМ реализован метод подбора родительских пар, основанный на оценке генотипического различия между собой форм растений с помощью формулы для вычисления евклидова расстояния. С целью повышения точности метода подбора родительских пар, основанного на этой формуле, необходимо: а) выбирать признаки, не имеющие между собой корреляционной связи; б) нормировать признаки, что обеспечивает одинаковое влияние каждого

признака на значение евклидова расстояния; в) пользоваться данными, которые получены только в одном пункте, или привести их к одному пункту; ' г) сумму квадратов разностей значений признаков, используемую в формуле для вычисления евклидова расстояния, поделить на число признаков, занятых в вычислении, что обеспечит независимость значения евклидова расстояния от числа признаков, а это в свою очередь делает сопоставимыми значения евклидова расстояния, полученные для разных пар и использующих разное количество признаков. Согласно этому методу более перспективной в селекции парой следует считать ту, у которой значение евклидова расстояния больше.

5. Выявлена тенденция увеличения количества полученных селекционерами сортов при увеличении евклидова расстояния между родительскими формами от 0,76 до 2,16.

6. Из числа имеющихся в базе данных сортов вишни наибольшими значениями евклидова расстояния обладают пары: Мелитопольская десертная, Идеал; Мелитопольская десертная, Любская; Идеал, Подбельская; Идеал, Приметная; Мелитопольская десертная, Пятилетка; Мелитопольская десертная, Надежная; Мелитопольская десертная, Бастард черешни; Мелитопольская десертная, Плодородная Мичурина; Подбельская, Алтайская ласточка; Подбельсхая, Надежная; Приметная, Бастард черешни; Надежная, Приметная; Мелитопольская десертная, Полевка; Мелитопольская десертная, Гриот Жукова; Свердловчанка, Превосходная Веньяминова; Шпанка курская, Любская; Идеал, Превосходная Веньяминова; Игрушка, Идеал.

7. Составлен и реализован на ЭВМ алгоритм подбора родительских пар, основанный на принципе взаимного дополнения признаков. Согласно этому принципу недостающие значения каких-либо признаков у одного родителя добавляются от другого родителя, предполагая, что в потомстве от скрещивания получатся формы растений, несущие в себе желаемые уровни всех признаков одновременно. На основе этого алгоритма разработаны две программы для ЭВМ. Одна программа отличается от другой возможностью задавать веса признакам в зависимости от важности в селекции этих признаков.

8. В соответствии с алгоритмом подбора пар, основанного на принципе взаимного дополнения признаков, и на основании требований, предъявляемых к новым сортам вишни для ЦентральноЧерноземной зоны, наиболее перспективными в селекции следует считать пары: Тамарис х Встреча; Памяти Вавилова х Встреча; Тамарис х Заря Татарии; Тамарис х Субботинская; Алмаз х Встреча; 18

Тамарис х Призвание; Уральская рубиновая х Встреча; Тамарис х Гриот волгоградский; Памяти Вавилова х Субботинская; Памяти Вавилова х Заря Татарии.

Рекомендации для практического использования

Предлагается применять базу данных в следующих трех областях.

I. Агрономам плодоводческих хозяйств, для ориентации в сортименте вишни из всего набора программ предлагается к использованию программа выборки данных. При этом в собственно базе данных должны быть только хорошо изученные сорта.

II. Для сортоведов рекомендуется использовать программы ввода/редактирования данных и программу выборки данных.

III. Селекционерам предназначается комплекс программ, состоящий из программы ввода/редактирования данных и программы гибридизации. С помощью первой программы они могут создать базу данных по своему гибридному фонду, а программа гибридизации (она полностью включает в себя возможности программы выборки данных) позволит им решить проблему выбора родительских форм с помощью евклидова расстояния.

Список опубликованных работ по теме диссертации.

1. Насонов В. В. О способе кодирования родословных плодовых культур в базах данных//Повышение эффективности сельскохозяйственного производства: опыт и проблемы (крат, тез-лсы докладов научно-производственной конференции 25-26 ноября;-Мичуринск. - 1993. С. 24-25.

2. Насонов В. В. Система базы данных CERASUS//Hay4Hoe обеспечение агропромышленного комплекса в условиях перехода к рыночным отношениям. (Тезисы докладов научной конференции профессорско-преподавательского состава, научных сотрудников и аспирантов 12 -15 апреля 1994.) - Мичуринск. - 1994. С. 201

3. Перфильев В. Е. , Лебедев А. В., Насонов В. В., Чуча В. С. Создание базы данных по сортам вишни и возможности ее использования//Бюллетень научной информации ВНИИГ и СПР им. И. В. Мичурина - Мичуринск.-1995.- Вып. 52.-С. 3-5.

4. Перфильев В. Е., Лебедев А. В., Насонов В. В., Чуча В. С. База данных по генофонду вишни и ее использование в селекцииЯСовременные проблемы плодоводства(Тезисы докладов научной конференции, посвященной 70- летию Белорусского НИИ плодоводства, 9-13 окт. 1995 г.)- Самохваловичи.- 1995,-С. 149.