Бесплатный автореферат и диссертация по биологии на тему
Статистические и прикладные аспекты генетического анализа альтернативных признаков по выборкам родословных
ВАК РФ 03.00.15, Генетика
Автореферат диссертации по теме "Статистические и прикладные аспекты генетического анализа альтернативных признаков по выборкам родословных"
На правах рукописи Оч УДК 575.11:616-056.7
V л.
л.
АКСЕНОВИЧ
Татьяна Иосифовна
СТАТИСТИЧЕСКИЕ И ПРИКЛАДНЫЕ АСПЕКТЫ ГЕНЕТИЧЕСКОГО АНАЛИЗА АЛЬТЕРНАТИВНЫХ ПРИЗНАКОВ ПО ВЫБОРКАМ РОДОСЛОВНЫХ
03.00.15 - генетика
Автореферат диссертации на соискание ушной степени доктора биологических наук
Новосибирск, 1995
Работа выполнена в Институте цитологии и генетики СО РАН,
г. Новосибирск
Официальные оппоненты: доктор биологических наук, профессор
Высоцкая Л.В.
Новосибирский государственный университет
доктор биологических наук Колпаков В.Г.
Институт цитологии и генетики СО РАН, г. Новосибирск
доктор биологических наук, профессор Фрисман ЕЛ.
Институт автоматики и процессов управления ДВО РАН, г. Владивосток
Ведущее учреждение: ВНИИ молекулярной биологии,
п. Кольцове, г. Новосибирск
Зашита диссертации состоится рдии^Л1995 г. заседании специализированного совета по защите диссертаций на соискание ученой степени доктора наук Д-002.11.01 при Институте цитологии к генетики СО РАН в конференц-зале Института по адресу: 630090, Новосн-бирск-90, проспект академика Лаврентьева, 10.
С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН.
Автореферат разослан ". В- Ц995 г.
Ученый секретарь специализированного совета, доктор биологических наук
А.Д.Груздеп
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Стремительный прогресс молекулярной генетики, позволивший говорить о принципиальной возможности тотального секвенирования генома человека (Hoffman, 1994; Garver et al., 1994; Parker, 1994), казалось, отодвинет на задний план исследования, проводимые в рамках классической генетики. Однако, выяснилось, что существует широкий класс признаков, проявляющихся лишь на уровне целого организма, для большинства из которых не известен первичный продукт гена. К ним относятся многие наследственные болезни человека," такие как ишемическая болезнь сердца, диабет, предрасположенность к некоторым онкологическим заболеваниям и т.д. (McKusick, 1938). Пользуясь только методами молекулярной генетики, нельзя локализовать тот участок секвенированнсй ДНК, который контролирует развитие этих признаков (DeLisi, 1988; Garver, Garver, 1994; Juengst,1994). Для этого необходимо объединить возможности молекулярной и классической генетики. Предлагается сначала локализовать ген, ответственный за развитие патологии, на генетической карте, затем - на физической, после чего провести секвенирование (Bishop, 1994; Hoffman, 1994). Для осуществления первого этапа этого процесса - генетического картирования необходим сегрегационный и рекомбинационный анализ, материалом для которого, если речь идет о человеке, служат родословные.
Высказываются опасения, что из-за относительного пренебрежем ния к исследованиям классической генетики, наблюдаемого в последние годы, сбор и анализ семейного материала окажется лимитирующим звеном в процессе выделения генов, контролирующих распространенные наследственные болезни ^Hoffman, 1994). Поэтому сейчас особую актуальность приобретает дальнейшая разработка методов генетического анализа признаков по выборкам родословных. Задача идентификации генов требует прежде всего разработки тех методических направлений генетического анализа, которые способствуют повышению корректности решения о сцеплении и обеспечивают оптимизацию формирования выборки родословных для анализа сцепления.
В данной работе мы ограничились рассмотрением проблем генетического анализа одного класса признаков - альтернативных. В настоящее время ни у кого не вызывает сомнения, что качественные и ко-
личественньге признаки принципиально но отличаются с генетической точки зрения. Однако существуют методические различия. Описание наследования качественных и альтернативных признаков значительно проще, чем количественных. Это позволяет сосредоточить основное внимание на поставленных в данной работе задачах. Вместе с тем, класс признаков, относящихся к альтернативным, достаточно широк. Так, в генетике человека традиционным является представление "больной - здоровый" или "норма - аномалия" (МсКи&ск, 1988). Поэтому изучение альтернативных признаков имеет не только теоретический, но и практический интерес.
Цель и задач» исследования. Целью данной работы является дальнейшая методическая разработка генетического анализа альтернативных признаков по выборкам родословных, включающая анализ адекватности некоторых статистических методов и создание новых, направленных на увеличение корректности выводов из результатов генетического анализа, на йпти^изацию получения эмпирического материала и на обеспечение доступности методов генетического анализа широкому кругу генетикоз. Для достижения зтой цепи были поставлены следующие задачи:
1. Провести анализ адекватности критериев сцепления и разработать методы оценки точности принятия решения о сцеплении.
2. Изучить точность оценки генетических параметров по выборкам родословных ограниченного размера.
3. Проанализировать наиболее распространенные способы формализации выбора родословных по пробанду и ввести модели, улучшающие их свойства.
4. Изучить последствия неточного указания реальной процедуры выбора по пробанду.
5. Разработать методы оптимального планирования выборки родословных для анализа сцепления, заключающиеся в
- избирательном включении в выборку наиболее информативных родословных,
- подборе маркера,
" - направленном последовательном расширении родословных.
6. Изучить точность генетического прогнозирования, ее изменение при использовании информации о сцепленных маркерных генах.
7. Разработать эффективные алгоритмы генетического анализа альтернативных признаков по выборкам родословных, создать пакеты прикладных программ и провести анализ наследования конкретных признаков по реальным выборкам родословных человека.
Научная новизна работы. В результате данного исследования впервые предложена аппроксимация распределения одного из вариантов критерия отношения правдоподобия, используемого при тестировании сцепления, позволяющая установить соотоетствие между граничным значением критерия и его ошибками / и II рода. Предложен новый метод оценки мощности другого варианта критерия сцепления.
Предложен нозый мзтод формализации выбора родословных по пробанду, расширяющий возможности широко используемой классической биномиальной схемы выбора.
Впервые показано существование области значений, а которую никогда не попадает оценка частоты аллеля, полученная по выборкам родословных. Нахождение истинного значения параметра в указанной области приводит к принципиальной невозможности получения его несмещенной оценки.
Впервые показано, что неточное указание того, среди каких чле-ноо родословной выбирался пробанд, ведзт к получению смещенных оценок генетических параметров и ошибочному отвержению менделев-ской сегрегации.
Разработаны новые методы оптимального планирования выборки родословных, позволяющие уменьшить обьем выборки, необходимый для тестирования сцепления.
Создан пакет программ для сегрегационного анализа альтернативных признаков по родословным произвольной структуры, выбранным из популяции по пробанду или в хода скрининга. Впервые разработана система специального сервисного обслуживания, делающая генетический анализ доступным для широкого круга практических генетиков.
Получены новые знания о генетическом контроле ряда признаков человека: показана возможность моногенного контроля семейного сколиоза, аденоматозного полипоза толстого кишечника и большого набора антропсскопических характеристик. Подтверждена гипотеза о плейо-тропном контроле аденоматозного полипоза и перзичного рака толстого кишечника.
Теоретическая и практическая значимость работы. Результаты проведенных исследований позволяют увеличить корректность генетического анализа. Это обеспечивается
- разработкой методов оценки точности принятия решения о сцеплении,
- созданием новой модели формализации выбора родословных по пробанду,
- выявлением ситуаций, когда невозможно получить несмещенные оценки генетических параметров.
Разработан ряд методов, позволяющих оптимизировать процесс формирования выборки родословных для анализа сцепления.
Сформулированы рекомендации по выбору маркера и направленному расширению родословных, приводящие к увеличению популяци-онной точности генетического прогнозирозания.
Создан пакет программ для сегрегационного анализа альтернативных признаков по родословным произвольной структуры, являющийся удобным инструментом, доступным широкому кругу практических генетиков; этот пакет с успехом используется для анализа признаков человека, а также при обучении студентов методам генетического анализа.
Апробация работы. Материалы, представленные в данной диссертации, докладывались на I Всесоюзном съезде медицинских генетиков (Киев, 1984), на V съезде ВОГИС (1987), на III школе-семинаре по генетике и селекции животных (Новосибирск, 1989), на всесоюзном симпозиуме "Многофакторная профилактика ИБС" (Томск, 1989), на И съезде медицинских генетиков (Москва, 1990), на второй всесоюзной конференции "Геном человека-91" (Переславль-Залесский, 1991), на симпозиуме "Патофизиологический анализ факторов риска артериальной гипертензии и атеросклероза" (Новосибирск, 1992), на III съезде медицинских генетиков (Москва, 1994), на I съезде ВОГИС (Саратов, 1994), на IV съезде международного общества генетиков-эпидемиологов (США, 1995), а также на отчетных сессиях Института цитологии и генетики (Новосибирск, 1991 и 1994).
Материалы диссертации опубликованы в 32 работах, выполненных в Секторе методов генетического анализа ИЦиГ в период с 1984 по 1995 год при частичной финансовой поддержке Международного Научного фонда и программ "Геном человека" и "Приоритетные направления генетики" (грант 5.832). Значительная часть исследований выполнена
совместно с Э.Х.Гинзбургом, которому автор выражает глубокую благодарность.
Объем; и структура работы. Диссертация содержит 361 страницу машинописного текста (без списка литературы), состоит из введения, 7 глав и выводов. В работе содержится 25 таблиц и 65 рисунков. Указатель цитированной литературы включает 274 источника, в том числе 56 на русском языке.
СОДЕРЖАНИЕ РАБОТЫ КРИТЕРИИ СЦЕПЛЕНИЯ
Корректность вывода о наличия или отсутствии сцепления определяется в значительной степени свойствами используемого критерия. Статистические методы практически никогда не дают однозначного ответа: выбор в пользу одной из тестируемых гипотез осуществляется с определенной точностью, которая характеризуется ошибками / и II рода соответствующего критерия. Величина ошибки / рода, а, определяется вероятностью отвергнуть нулевую гипотезу Н0 при ее справедливости, а сшибки ¡1 рода, ¡}, - вероятностью отвергнуть альтернативную гипотезу Н?при ее справедливости.
При анализе сцепления генов по родословным произвольной структуры традиционным является критерий отношения правдоподобия. Этот критерий может использоваться в нескольких заризнтах, которые отличаются друг от друга спецификой тестируемых гипотез и требованиями к эмпирическому материалу.
В любом варианте нулезая гипотеза Н0 предполагает отсутствие сцепления между двумя генами. Альтернативная гипотеза Н1 может быть простой или сложной. Простая альтернативная гипотеза утверждает, что коэффициент рекомбинации между двумя генами равен конкретному значению 0,, при сложной альтернативной гипотезе величина коэффициента рекомбинации не фиксируется, она может принимать любые положительные значения, меньшие 0.5. В этом случае процесс тестирования сцепления неразрывно связан с оценкой коэффициента рекомбинации 0*.
Требования к эмпирическому материалу определяются тем, что одни критерии рассчитаны на выборки фиксированного объема, а другие являются последовательными.
Процесс тестирования гипотезы по выборке фиксированного размера заключается в том, что полученная величина отношения правдоподобия сравнивается с заранее выбранным граничным значением критерия: если она больше граничного значения, нулевая гипотеза отвергается, если меньше - не отвергается. Решение о сцеплении тем более корректно, чем точнее известны два распределения: распределение значений критерия при справедливости Н0 и распределение этих значений при справедливости Н,. Только в этом случае устанавливается аккуратное соответствие между граничным значением критерия и ошибками / и Ирода.
Критерий для проверки простой альтернативной гипотезы Я.(в„М)
Наименее разработана проблема аппроксимации распределения критерия при введении простой альтернативной гипотезы. До сих пор не было предложено ни одной удобной аппроксимации. Вместо этого предлагалось использовать грубый способ установления соответствия между величиной ошибки I рода к граничным значением, основанный на неравенстве Чебышева (Haidane, Smith, 1947; Smith, 19S3). Проявляющийся при этом консерватизм критерия, а также невозможность оценки его мощности привели к тому, что простая альтернатива была практически исключена из анализа сцепления по выборкам фиксированного размера.
Мы предложили аппроксимировать распределение критерия первыми членами ряда Эджворта (Крамер, 1975). При этом функция распределения критерия выражается через функцию и плотность нормального распределения и через первые начальные моменты распределения
Зная распределения критерия при справедливости Н0 и Нь легко установить соответствие между граничным значением и величинами ошибок / и II рода. Формально оно определяется системой из двух уравнений:
( a=1-F(L\Q=0.5)
где F(lIq) - функция распределения, L - граничное значение, <р=1-р -мощность критерия.
Точность предложенной аппроксимации проверяли методом гене-тико-стохастического моделирования, который продемонстрировал достаточно тесное совпадение декларируемых и реально полученных ошибок I и II рода. В частности показано, что ошибка при оценке мощности не превышает 2% и находится в пределах выборочных ошибок.
Таким образом, предложенная аппроксимация обеспечивает возможность практического использования критерия X(9f,3l): граничное
значение критерия, определенное на базе этой аппроксимации, позволяет реализовать декларируемые ошибки / и II рода.
Критерий для проверки сложной альтернативной гипотезы Х(в*,Л)
-Второй вариант критерия отношения правдоподобия предусматривает тестирование сложной альтернативной гипотезы. Из асимптотической теории отношения правдоподобия было известно, что если оценка коэффициента рекомбинации получена методом максимума правдоподобия, то при справедливости Н0 удвоенная величина критерия имеет в асимптотике распределение %2 (Neyman, Pearson, 1928). При этом граничное значение определяется только ошибкой I рода, оно не зависит от способа наследования обоих признаков, их распределения в популяции, процедуры выбора родословных, структуры родословных и т.д.
В то же время оценка мощности критерия Х(0*,35) сопряжена с большими трудностями. Из асимптотической теории следует, что когда справедлива гипотеза Нь то для каждой фиксированной альтернативной гипотезы распределение критерия можно аппроксимировать односторонним нецентральным распределением хг с некоторым параметром нецентральности (V/afd, 1943). Проблема заключалась в том, чтобы найти этот параметр.
Было предложено использовать для аппроксимации параметра нецентральности информацию Фишера (Кендалл, Стьюарт, 1973). Однако, сложность подсчета вторых производных функции правдоподобия, необходимых для этого, позволяет пользоваться этой аппроксимацией при анализе сцепления лишь в крайне простых ситуациях, не представляющих практического интереса (Eiston, Bonney, 1984; Ott, 1985; MacLean et at., 1993).
Нам удалось показать, что хорошей аппроксимацией параметра нецентральности является другая мера различения гипотез, отражаемая через информацию Кульбака (Kullback, 1959). Точность оценки мощности определяли с помощью стохастического моделирования выборок родословных. Моделировали более 130 ситуаций, отличающихся структурой родословных, размером выборки, наборами генетических параметров, величиной коэффициента рекомбинации. Оценивали дол» выборок, в которых было установлено сцепление - она характеризовала реальную мощность критерия. Ожидаемая мощность определялась через нецентральное распределение %г с соответсвующим параметром нецентральности. Во всех случаях разница между ожидаемыми и реальными мощностями не превысила 0.023.
Предложенная аппроксимация параметра нецентральности значительно проще существующей, выражающейся через информацию Фишера. Это обеспечивает ее более широкое практическое использование.
Последовательный критерий lod score
Третий рассмотренный в данной работе критерий - последовательный критерий Вапьда (Waid, 1947).-Суть последовательного анализа сцепления заключается в следующем. Выбирается тестируемая величина коэффициента рекомбинации и определяются два граничных значения. Для каждой включаемой в выборку родословной подсчитывается отношение правдоподобия, которое суммируется с аналогичными величинами, полученными по уже включенным в выборку родословным. Эта сумма называется lod score. После включения в выборку каждой новой родословной величина tod score сравнивается с граничными значениями критерия. При этом возможны три исхода: если tod score больше верхней границы, делается заключение о наличии сцепления, если меньше - делается вывод о том, что истинное значение коэффициента рекомбинации больше тестируемого, если lod score лежит между границ, утверждается, что данных недостаточно для того, чтобы сделать заключение о сцеплении.
Определение точных границ в общем случае достаточно сложно. Однако, можно получить приближенное решение, если предположить, что шаги lod score вблизи границы пренебрежимо малы. При этом
предположении и малости ошибок I и II рода граничные значения критерия выражаются следующим образом (Wald, 1947):
L1=log10 fi-ß)/a; L2 =!og)0ß/(1-a). При анализе родословных человека принято тестировать сцепление при а =0.001 и ß=0.0l (Morton, 1955). При этом верхняя граница равна 3, а нижняя -2.
К сожалению, когда единицей измерения является родословная, не очевидно выполнение предположения о малости шагов ¡od score вблизи границы. Мы показали, что отношение правдоподобия для отдельных родословных может превышать 1, и составляет значительную часть интервала между границами. Поэтому при работе с родословными может нарушаться соответствие между ошибками / и II рода и граничными значениями критерия. Оценка реальных ошибок I и I! рода, полученная в генетико-стохастическом эксперименте, показала, что они равны 0.0008[>±0.00005 и 0.0059±0.0001, соответственно, что несколько ниже декларируемых значений.
Существуют методы, позволяющие уточнить граничные значения последовательного критерия (Лотов, 1977). Однако, для этого требуется точная информация о распределении критерия. Как правило, исследователь заранее не располагает такой информацией, а введение в уточняющие формулы неверного распределения может привести к неконтролируемым изменениям свойств критерия. Учитывая это, а также то, что полученная нами разница реальных и декларируемых ошибок / и II рода невелика и что уменьшение реальных ошибок по сравнению с декларируемыми лишь усиливает силу вывода о сцеплении, можно заключить, что при тестировании сцепления по выборкам родословных общепринятые граничные значения критерия lod score, 3 и -2, являются приемлемыми с практической точки зрения.
ТОЧНОСТЬ ОЦЕНКИ ГЕНЕТИЧЕСКИХ ПАРАМЕТРОВ
Наиболее статистически обоснованным в настоящее время является такой вариант анализа сцепления, в котором коэффициент рекомбинации является единственным оцениваемым параметром, оценки всех остальных генетических параметров получают в ходе предварительного сегрегационного анализа. Ясно, что точность оценок генети-
ческих параметров, отличных от коэффициента рекомбинации, является обязательным условием корректности решения о сцеплении.
При работе с выборками родословных обычным является метод максимума правдоподобия. Известно, что в асимптотике оценки параметров, полученные этим методом, обладают свойствами несмещенности и состоятельности (Kendall, Sluart, 1S67). К сожалению трудоемкость и дороговизна сбора семейного материала не позволяет формировать выборки большого размера.
В данной работе исследуются свойства оценок параметров, полученные по выборкам небольшого размера. Мы ограничились рассмотрением частот аллелей диаллельного аутосомного локуса.
Моделировали выборки, содержащие различное число родословных, и по каждой выборке оценивали частоту аллеля А2 в популяции. Как видно на рис.1, средние значения частоты аллеля, полученное в повторных экспериментах (линия на графике), значимо не отличаются от моделируемого значения, разброс оценок уменьшается с ростом объема выборки, т.е. поведение оценок удовлетворяет стандартным требованиям. Вместе с тем, видно, что существует такая область, в которую никогда не попадает оценка частоты аллеля: полученные оценки либо равны машинному нулю, либо достаточно велики.
20 40 60 80 too 120 140 160 1В0 гоо
число родословных в выборка
Рис.1. Оценки частоты аллеля А2, полученные по выборкам родословных различного размера. Рецессивный контроль аномалии, моделируемая частота аллеля 0.01.
Причина этого явления заключается в следующем. Все родословные можно разбить на две группы. В первую входят те, вероятность которых монотонно убывает с ростом частоты аллеля А^ во вторую - все остальные. Ясно, что если выборка состоит только из родословных первого типа, будет получена нулевая оценка частоты аллеля А2 независимо от ее истинного значения. Мы оценили вероятность ситуаций, когда
выборка состоит из родословных первого типа. Она совпала с частотой нулевых оценок параметра.
Для получения ненулевой оценки в выборке должна присутствовать хотя бы одна родословная второго типа, причем минимальная ненулевая оценка частоты аллеля получается, когда в выборке только одна родословная второго типа. Очевидно, что минимальная ненулевая оценка и ось абсцисс ограничивают область, в которую никогда не попадают оценки частот аллеля. Величина этой области не зависит от истинного значения параметра, она уменьшается с увеличением объема выборки. Однако при низкой частоте мутантного аллеля в популяции оказывается, что даже при выборках значительного размера истинное значение параметра все еще лежит в указанной области. В этом случае в принципе невозможно получить оценку, близкую к истинной: либо будет нулевая оценка, трактуемая как крайне ни.зкоя частота аллеля, либо - явно завышенная. Объем выборки, необходимый для корректной оценки частоты аллеля, зависит от истинной величины параметра.
Очевидно, что аналогичный эффект мокот наблюдаться при оценке других параметров, в частности, при оценке коэффициента рекомбинации в случае достаточно тесного, но не полного сцепления.
ВЫБОР РОДОСЛОВНЫХ ПО ПРОБАНДУ
Еще одним источником возможной некорректности интерпретации результатов генетического анализа является формализация выбора родословных по пробанду. Выбор по пробанду предполагает, что родословные включаются в выборку не случайно, з в соответствии с требованием, чтобы хотя бы один член каждой родословной обладает заранее определенным свойством, обычно - экстремальным значением какого-либо признака. Способ выбора - это то правило, которым руководствуется исследователь, решая, включать или нет данную родословную в выборку. Показано, что корректный генетический анализ возможен лишь в том случае, когда формализация адекватна тому способу выбора, который был использован в действительности при формировании исследуемой выборки (вгеепЬегд, 1986; Еюепэ, ЗИШе, 1986). В противном случае получаются смещенные оценки генетических параметров.
Основная сложность заключается в том, что достаточно трудно, если не невозможно, однозначно сформулировать правило, которым руководствуется исследователь, решая, включать ли данную родословную в анализируемую выборку. Часто сбор родословных осуществляется одним коллективом исследователей, а анализ - другим. Это означает, что разработка методов учета выбора по пробанду должна вестись не столько в направлении максимального приближения формализации к истинному способу выбора, сколько в направлении создания таких моделей, которые позволяют, меняя значения определенных параметров, описывать как можно более широкий набор реальных ситуаций.
Наиболее широко распространенной является классическая биномиальная схема выбора по пробанду, предполагающая, что каждый член родословной может стать пробандом независимо от других с вероятностью' тг, одинаковой для всех и независимой от пола, возраста, порядка рождения и т.д. Согласно этой схемы, вероятность родословной в выборке записывается как
I
где Р(Х^) - вероятность /-ой родословной в популяции, а - число аномальных членов /-ой родословной, так называемых потенциальных пробандов.
Было показано, что классическая биномиальная формализация не в состоянии описать многие реальные ситуации (НаМапе, 1033; 31епе, 1977; Е1б1оп, Воппеу, 1934; Елепэ, БГиЛе, 1986).
Ми предлагаем рассматривать в качестве единицы выбора не особь, а родословную. Тогда величина я перестает быть константой, она зависит от структуры родословной, от числа в. ней потенциальных пробандов. Мы назвали эту схему кооперативной, стараясь подчеркнуть, что решение о включении родословной в выборку принимается с учетом фенотипов всех членов родословной.
Если задать щ =1-[1-к, гД/,/г/, то легко видеть, что вероятность родословной в выборке приобретает вид
Р(Х/ \ азс)=РЩ )гр/X. Р(Х))г? .
Функция, представленная выражением такого вида, как было показано, описывает более широкий, чем при классической модели, на-
бор ситуаций, в частности, ситуации, когда вероятность выбора родословной растет с увеличением числа аномальных особей, быстрее, чем прямо пропорционально ему (e>i) и когда вероятность выбора уменьшается с ростом числа аномальных особей (е<0) (Stene, 1978; Ewens, Shute, 198G).
Таким образом, предложенная нами кооперативная биномиальная модель выбора существенно расширяет возможности классической биномиальной схемы.
Формализация выбора г.о пробанду усложняется тем, что не все члены родословной из-за места жительства, возраста и т.д. в принципа могут стать пробандами. Для решения этой проблемы было Евадено понятие о PSF (proband sample frame) как о подмножестве членов родословной, среди которых выбирается пробанд. Показано, что корректность генетического анализа из нарушается, если строить формализацию выбора по пробанду только на характеристиках членов PSF (Eiston, Sobel, 1978). К сожалению, помимо того, что далеко не всегда удается определить реальную схему выбора, не всегда фиксируется, кто из членов родословной принадлежит PSF.
В данной работе исследованы последствия неточного задания PSF. Рассматривали различные реальные схемы выбора родословных по пробанду, предполагающие, что PSF ограничено только потомками. Полная, единичная и квадратичная схемы выбора описывают ситуации, хогда вероятность включения родословной в выборку не зависит от числа аномальных членов PSF, пропорциональна ему или пропорциональна его квадрату, соответственно. Рассматривали моногенный диал-лельный контроль аномалии: предполагали, что генотип Л,Д; никогда йе дает аномалии, А»Д^ - реализует es всегда, а А,А2 - с вероятностью w; q • часшта аллеля Аг в популяции. Такая модель описывается двумя параметрами Q И W.
При оценке генетических параметров рассматривали ситуции, когда предполагаемое PSF совпадало с реальным (PSF„v) или включало всех членов родословной (РЗРац). При этом придвигаемая схема выбора не обязательно совпадала с реальной. Из табл.1 видно, что если предполагаемое PSF совпадает с реальным, несмещенные оценки параметров получаются только тогда, когда совпадает реальная и гипотетическая схема выбора. Если же предполагаемое PSF не совпадает с
реальным, даже точное знание схемы выбора не может обеспечить несмещенных оценок параметров.
Таблица 1.
Оценки параметров q и и/при различном задании PSF. Реальное PSF ограничено потомками (PSF0tf), моделируемые параметры: q=0.1, w=0.5
Схема выбора Оценки параметров
Реальная Предпола- PSF0„ PSFa„
гаемая q* W* Q* w*
Полная Полная 0.1000 O.SOOO 0.0834 0.6236
Единичная 0.1362 0.3474 0.0530 0.4904
Квадратичная 0.1157 0.2740 0.0376 0.3352
Единичная Полная 0.0881 0.6049 0.0915 0.6831
Единичная С.1000 0.5000 0.0552 0.5726
Квадратичная 0.1345 0.3228 0.0396 0.4225
Квадратич- Полная 0.0894 0.6939 0.1052 0.7422
ная Единичная 0.0362 0.6266 0.0591 0.6628
Квадратичная 0.1000 0.5000 0.0396 0.5407
Аналогичные данные были получены при других значениях моделируемых параметров и при реальном PSF, ограниченном родителями. Та же ситуация наблюдалась при проверке менделизма: неточное указание PSF приводило к ошибочному отвержению гипотезы о менделев-ской сегрегации генов.
Между тем, проблема корректного определения реальной схемы выбора интенсивно обсуждается уже многие годы, тогда как на необходимость точного задания PSF не обращается внимания. Об этом свидетельствует хотя бы то, что ни в одном из существующих пакетов программ, предназначенных для записи информации о родословных, не предусмотрена фиксация пробандного статуса (Chapman, 1990; Bennet eta/., 1995).
ПЛАНИРОВАНИЕ ВЫБОРКИ ДЛЯ АНАЛИЗА СЦЕПЛЕНИЯ
Как известно, сбор семейного материала и характеризация его по анализируемому и маркерному признакам, является трудоемкой и доро-
гостоящей процедурой. Поэтому, прежде, чем приступить к формированию выборки, необходимо оценить ее объем, необходимый для тестирования сцепления с заданным уровнем точности. Часто оказывается, что необходимый размер выборки настолько велик, что требуются специальные приемы, позволяющие повысить информативность выборки. В данной работе рассмотрено несколько путей оптимизации формирования выборки, позволяющие уменьшить ее объем, не ухудшая качества решения о сцеплении.
Избирательное зключзнне родословных в выборку
Первый подход заключается в дифференциальном включении в выборку различных родословных. Известно, что при фиксированной структуре информативность родословной определяется набором фенотипов у ее членов. Поэтому, меняя схемы выбора по пробанду, можно добиться предпочтительного включения в выборку наиболее информативных родословных.
Например, известно, что при рецессивном контроле аномалии наименее информативны родословные, где все потомки имеют нормальный фенотип. Предотвратить их попадание з выборку можно, ограничив PSF потомками. С другой стороны, известно, что информативность родословных растет с ростом числа аномальных потомхоз. Следовательно, предпочтительными будут единичная и квадратичная схемы выбора, при которых вероятность попадания оодословной в выборку пропорциональна числу или квадрату числа аномальных особей.
При доминантном контроле минимальной информативностью обладают родословные со всеми аномальными потомками. Снизить их долга в выборке позволяют обратная единичная и обратная квадратичная схемы выбора, при которых вероятность попадания родословной в выборку обратно пропорциональна числу или квадрату числа аномальных особей.
-Показано, что эти закономерности не меняются при изменении величины коэффициента рекомбинации, частот аллелей, декларируемых ошибок I и II рода, размера родословных. Такая инвариантность выводов позволяет еще до начала сбора материала подобрать оптимальную стратегию формирования выборки.
Повышение информативности родословных
При более сложных, нем рецессивная или доминантная, моделях наследования, описываемых неполными пенетрантностями генотипов, информативность родословных заметно снижается. Это приводит к тому, что объем выборки, необходимый для анализа сцепления, становится слишком большим, чтобы рассчитывать на практический успех анализа (рис.2). В таких ситуациях можно предложить несколько путей уменьшения объема выборки.
Первый из них заключается в ослаблении требования к качеству решения о сцеплении: если допустить уменьшение мощности, можно тестировать сцепление на выборках меньшего объема. Показано, что,
Рис.2. Зависимость объема выборки от пенетрантности гетерозиготного генотипа для разных способов выбора по пробаду (сплошные линии) и для разных коэффициентов неравновесности (штриховые линии), а=0.05, <р=0.9.
а - 0=0.3, <7=0.1; Ь -в -0.3, £7=0.5; с - 6=0.1, д=0.1 Схемы выбора по пробанду: • - полная Д - обратная единичная
А - единичная □ - обратная квадратичная
в - квадратичная ° - хотя бы два больных
>ю
0.2 0.4 0.3 о.а 1.0 0.2 0.4 0.5 0.3 1.0 0.2 0.*""0.6 0.8 ».0
Панетрантность
уменьшив требуемую мощность с 0.9 до 0.8, удается сократить объем выборки почти в 1.5 раза.
Второй путь заключается в уменьшении диапазона тестируемых значений коэффициента рекомбинации, который определяется выбором альтернативной гипотезы. Сравнение графиков рис.2а и 2с показывает, что установление достаточно тесного сцепления между локализуемым и маркерным генами (0<0. /) требует выборок как минимум на порядок меньших, чем при тестировании более слабого сцепления (0S0.3).
В случае, когда исследователь не может пойти на это, необходим другой путь - повышение информативности родословных. Как известно, наиболее эффективный способ увеличения информативности заключается в установлении фазы сцепления генов у дигетерозиготного родителя (Ott, 1S65), которое может быть достигнуто либо выбором маркерного гена, находящегося в неравновесии по сцеплению с локализуемым, либо усложнением структуры родословных.
На рис.2 штриховыми линиями показано, как меняется объем выборки при неравновесности по сцеплению. Видно, что при коэффициенте иерзвнозесности, большем 0.5, что соответствует ситуации, когда не менее 75 % дигетерозигот в популяции находятся □ одной фазе сцепления, размер выборок при неполной пекетрантности становится сопоставимым с таковым /11я рецессивного и доминантного контроля. Вместе с тем ясно, что будучи столь эффективным, этот путь далеко не всегда доступен, поскольку любая популяция стремится к равновесию, и высокая степень неравновесности-явление крайне редкое.
Другим, наиболее широко рекомендуемым, способом .установления фазы сцепления является расширение родословной путем включения а нее родителей дигетерозиготы (Ott, 1985; Фогель, Мотульски, 1939). Полученные в данной работе результаты свидетельствуют о том, что эффект от такого расширения оолослсвной сопоставим с эффектом от использования маркера, коэффициент неравновесности для которого порядка 0.5.
Однако, было замечено, что несмотря на существенное увеличение общей информативности выборки при расширении родословных за счет родителей дигетерозиготы, этот эффект наблюдался далеко не во всех родословных.
Детальный анализ возможности уточнения фазы сцепления по фенотипам родителей показал, что если фенотипы или маркерныз генотипы родителей одинаковы, то они не несут информации о фазе сцепления генов у потомка. Во веек информативных ситуациях степень уточнения фазы сцепления, определенная как модуль относительной разницы вероятностей цис- и транс-фазы у дигетерозиготы, одинакова, ' она определяется моделью наследования анализируемого признака:
—; _| (pw2 + ду'з)-(РУ1 + _>
11 (pw2 + qwg) + (pw, + qw2)~ 2(pw2 + QW3 )(pw, + qw2 )'
где p и q - частоты аллелей А, и Аг; wb w2, w3 - пенетрантности генотипов AtAh A,A2 и соответственно.
Показано, что однозначное установление фазы сцепления возможно только при рецессивном (w,=vs2~0) или доминантном (w2=vsf=1) контроле аномалии. При всех других моделях наследования можно говорить лишь о вероятности той или иной фазы сцепления генов. Нужно заметить, однако, что и в этих случаях степень уточнения фазы сцепления генов по фенотипам родителей достаточно велика: т>ъ.0.8.
Последовательное направленное расширение родословных
Существует еще один способ повышения информативности родословных, обеспечиваемый последовательным направленным их расширением (Cannings, Thompson, 1977). В работе предложен один из вариантов такой стратегии. Он основан на предположении,, что единицей выбора является ядерная родословная, состоящая из пары родителей и их потомков. Тогда процесс направленного расширения родословной заключается в следующем. Выбирается первая ядерная родословная и для каждого ее члена, имеющего доступных для обследования родственников, оценивается информативность планируемого расширения. Из всех возможных реализуется то расширение, которое наиболее информативно. Этот процесс продолжается до тех пор, пока ни одно из доступных расширений не будет менее информативно, чем новая выбранная из популяции ядерная родословная.
Об эффективности стратегии судят по объему выборки, необходимому для тестирования сцепления. Мы доказали; что объем выборки, полученной па предлагаемой стратегии, никогда не превышает объема выборки, полученной путем случайного расширения родословной, т.е. предлагаемая стратегия является эффективной. Для большого набора ситуаций получены количественные оценки эффективности. Они свидетельствуют о том, что использование предлагаемой стратегии направленного расширения родословной позволяет почти вдвое уменьшит», объем выборки.
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СЕГРЕГАЦИОННОГО АНАЛИЗА
Использование родословных произвольной структуры в качестве материала для генетического анализа сопряжено с большими вычислительными сложностями - генетичоский анализ признаков по выборкам родословных немыслим без применения вычислительной техники. Поэтому эффективные алгоритмы и пакеты программ для генетического анализа признаков являются неотъемлемой частью его матодичосксй оснащенности {Kassted?, 1982; Lathrop, lalouel, 1984).
В работе описан один га созданных в Секторе методов генетического анализа ИЦиГ пакетов, предназначенный для сегрегационного анализа альтернативных признаков по выборкам родословных произвольной структуры, полученных путем скрининга или выбором по про-банду. Пакет позволяет тестировать моногенные диаллельные гипотезы о контроле признака.
Теоретической основой пакета является представление-о генетической система признака (Eistön, Stewart, 1971; Eiston, 1981; Гинзбург, 1S34), в рамках которого наследование альтернативного признака описывается следующими параметрами: q - частота аллеля Аг в популяции, и/д - пенетрантность генотипа q (g= 1,2,3 для АГА/, А,Аг и АгА^, соответственно) и тд - вероятность того, что родитель с генотипом g передаст потомку аллель А
Предусмотрзна возможность модификации пенотрантиостей фоновым количественным признаком, при этом вероятность формирования аномального фенотипа у особи с генотипом g и значением фонового признака t задается выражением Wg/(1где \vg - максимальная пенетрантность генотипа д, а и Т - параметры зависимости от фонового
признака. Модели наследования могут включать половой диморфизм пенетрантностей генотипов. При этом вводится два набора пенетрант-ностей: ws - для мужчин и vg - для женщин.
Предусмотрена возможность анализа нэ только альтернативных признаков, но и признаков с тремя фенотипическими проявлениями, а также альтернативных признаков, искусственно полученных из количественных заданием порогового значения.
. Для проверки справедливости менделооской сегрегации используются параметры т,. При менделеаской сегрегации xq равны 1, 0.5 и 0, для д=1, 2, 3, соответственно. Если LH0 - максимальное значение функции правдоподобия при менделевской сегрегации, a LHt - при произвольных tq, то величина 2{Ш, - LH0) имеет в асимптотике распределение х2 с тремя степенями свободы и является критерием проверки возможности моногенного диаллельного контроля признака (Elston, Stewart, 1971).
Большим преимуществом разработанного пакета является то, что он снабжен сервисной оболочкой, выполненной в системг Turbo Vision. Она значительно облегчает работу генетика, позволяя формулировать генетические гипотезы в привычных терминах, максимально автоматизируя процесс генетического анализа и облегчая интерпретацию его результатов.
СЕГРЕГАЦИОННЫЙ АНАЛИЗ ПРИЗНАКОВ ЧЕЛОВЕКА
i
Созданный нами пакет программ был апробирован на выборках родословных с семейной гиперхолестеринемией, для которой известен механизм генетического контроля (Goldstein, Brown, 1982). Подтверждение известного механизма наследования позволило нам перейти к изучению признаков, генетический контроль которых не был установлен и представлял интерес для генетиков. В работе приводятся результаты сегрегационного анализа некоторых признаков, полученные по выборкам родословных, собранных отечественными исследователями.
Анализ наследования сколиоза
Несмотря на то, что семейный характер сколиоза известен очень давно (Hoffa, 1890), механизмы его генетической детерминации до сих
г.ор остаются невыясненными. Исследование выполнено по выборке родословных, собранных сотрудниками Новосибирского Института травматологии и ортопедии Зайдман A.M. и Семеновым И.Р. Всего обследовано 90 семей, включающих 233 человека. Семья попадала в еы-борку при наличии в ней хотя бы одного ребенка до 16 лет с любой степенью сколиоза.
Проверяли возможность моногенного диаллельного контроля аномалии, описываемого следующими генетическими параметрами: q -частота аллеля А2 в популяции, wq - пенетрантность генотипа q {д~1, 2, 3 для AjA,, А,А2 и А2&2* соответственно). При списании модели с поповым диморфизмом в пенетрантностях генотипов символом wq обозначали пенетрантности у мужчин, a vq - у женщин. Тестирование менде-лзвекой сегрегации осуществляли методом, предложенным Эльстоном (Elston, Stewart, 1971) и основанным на сравнении функций правдоподобия, полученных при менделевских и произвольных значениях параметров тр
Результаты проверки менделезской сегрегации представлены в табл.2. Кок видно, полученные оценки пенстрантнсстей соответствуют механизму аутосомно-домкнантного контроля с неполной ленетрантно-стью гетерозиготного генотипа (vv2=0.34). При сравнении результатоз, представленных п столбцах 1'и 3, видно, что различие пенетрзнткостей
Таблица 2
Результаты проверки гипотез о наследовании сколиоза*
Параметр 1 2 3 4
q 0.097 0.099 0.098 0.093
w2 0.337 0.327 0.374 0.367
M2 0.337 0.327 0.292 0.279
0.500 0.436 0.5Q0 0.419
LH -123.09 -122.99 -122.83 -122.68
L 0.073 0.079 0.071 0.079
R 0.825 0.810 0.830 0.812
* Во всех вариантах были получены следующие оценки параметров:
V мужчин (\'/г) и женщин ((/2) не достоверно. Оценки переходных вероятностей т0, близхие к менделе&ским (ср. столбцы 1 и 2, 3 и 4), не позволяют отвергнуть гипотезу о моногенном контроле сколиоза. Приняв эту гипотезу, удается достаточно точно прогнозировать фенотипы потомков: средняя вероятность ошибочного прогноза 1=0.07, коэффициент корреляции между прогнозируемым и истинным фенотипом й=0.82. Обратим внимание, что такой точности прогноза не удается достигнуть на основе обычных корреляционных связей между родственниками.
Анализ наследования адсиоиатозкого полипоаа толстого кишечника
Семейный характер диффузного полилоза толстого кишечника известен с 1882 года, в настоящее время эту патологию относят к разряду заболеваний с моногенной детерминацией.
Исследование проводилось по выборке родословных, собранных сотрудниками Института медицинской генетики Альтшулером Б.А. и Баженовой М.Д, Выборка состояла из 40 родословных, включающих 476 особей с известным фенотипом.
Учитывая то, что болезнь проявляется с возрастом, в модель наследования была введена зависимость пенетрантностей генотипоа от возраста. Показано, что наследование аденоматозного полипоза толстого кишечника может быть описано аутосомно-доминантной моделью с максимальной пенетрантностью гетерозиготного генотипа 0.468±0.050 и параметрами возрастной зависимости а-0.29, Т=13.7. Полученная оценка частоты мутантного аллеля в популяции (порядка 10~4) не противоречит известной распространенности заболевания. Показано, что гипотеза о моногенном контроле патологии ни отвергается по критерию переходных вероятностей (х2=3.62).
Было замечено, что в семьях с диффузным полипозом толстого кишечника часто возникает первичный рак, которому не предшествует возникновение полипов, что позволило высказать гипотезу о плейо-тропном контроле этих двух форм патологии (Альтшулер и др., 19В5).Мы проварили эту гипотезу следующим образом. Провели сегрегационный анализ нового признака, определенного так, что аномальный фенотип фиксировался не только при наличии полипоза, но и при первичном раке толстого кишечника, а нормальный фенотип характеризо-
сался отсутствием и той, и другой патологии. Оказалось, что оценки частот аллелей и параметров возрастной зависимости практически не изменились по сравнению с результатами, полученными при анализе полипоза, в то время как пенетрантность гетерозиготного генотипа возросла {0.578±0.053). Именно такой характер изменения параметров ожидался при гшейотропном эффекте гепа.
Кроме того, у 15 человек в анализируемой выборка наблюдался первичный рак толстого кишечника, т.е. при анализе полипоза их фенотип считался нормальным, а при анализе объединенного признака (по-липоз+рак) - аномальным. При плейотропном эффекте гена ожидалось, что распределение прогнозируемых генотипов у этих особей, полученное с использованием параметров, описывающих наследование полипоза, совпадет с распределением, полученным при параметрах моддли наследования объединенного признака. Оказалось, что коэффициент корреляции этих двух распределений равен 0.946±0.045, а для 15 из этих особей он составил 0.993±0.022, что еще раз подтвердило возможность плейотропного контроля полипоза и первичного рака толстого хишечника.
Диализ некоторых антропоскопических характеристик
Исследование проводилось по выборке из 83 родословных, полученной совместно с сотрудниками НИИ кардиологии Кыргызстана Исмаилозсй Ч.С., Мейманалиевым Т.О., Кошалиевым Э.К. и Лодгур-ской Л.П.
Был проведен сегрегационный анализ 24 антропоскопйческих характеристик, в результате которого мокогенное наследование было обнаружено для 15 признаков. Наследование 7 из этих 15 признаков описывалось моделью с одинаковыми пенетрантностями генотипов у мужчин и женщин. Эта модель описывается четырьмя параметрами: р - частота аллеля А, в популяции, и^ - пенетрантность генотипа д (д-~1, 2, 3 для А1АЬ А^А2 и А ¿А 2, соответственно). Полученные результаты представлены в табл.3.
Первый столбец соответствует признаку "мочка уха". Наблюдается доминирование аплеля, определяющего свободную мочку уха. Второй столбец описывает признак "способность складывать язык трубочкой", наблюдается почти промежуточное наследование. Третий столбец
Таблица 3
Оценки параметров моногенкой модели для признаков с одинаковой пенетрзнтностью генотипов у мужчин и женщин
1 2 3 4 5 6 7
р 0.459 0.556 0.552 0.099 0.897 0.713 0.404
0.179 0.000 0.000 0.000 О.ОСО 0.000 0.000
1ыг 0.438 0.368 Щ 0.313 Щ
Щ 1.000 1.000 1.000 0.625 0.511 0.717 0.782
Ш -273.5 -278.2 -270.6 -255.4 -128.9 -196.4 -268.9
соответствует признаку "сросшиеся брови". Здесь также почти промежуточное наследование. Четвертый столбец характеризует признак "дарвиновский бугорок". В модели показано полное доминирование аллеля, определяющего выраженность дарвиновского бугорка. В пятом столбце представлен признак "профиль спинки носа". Наблюдается рецессивность аллеля, соответствующего вогнутой форме. Шестой столбец представляет признак "основание носа". Наследование описывается моделью с тремя различными пзнетрантностями генотипоа. И, наконец, седьмой столбец описывает признак "складка верхнего века". Наблюдается рецессивность аллеля, контролирующего выраженность складки.
Для 5 признаков было показано моногениое наследование с разными пенвтрантностями генотипов у двух полов {мд - пенетрантности у мужчин, чд - у женщин). Полученные модели наследования представлены в таблице 4.
Первый столбец таблицы соответствует признаку "направление завитка волос на макушке". У мужчин наблюдается полное доминирование аллеля, определяющего закручивание завитка волос по часовой стрелке, у женщин - почти промежуточное наследование. Второй столбец представляет признак "завиток уха". Пенетрантность здесь - вероятность выраженного завитка уха. Третий столбец описывает признак "высота переносья", пенетрантность - вероятность невысокого переносья. Четвертый столбец соответствует признаку "скулы". Наблюдается доминирование аллеля, определяющего выраженность скул, причем с различной степенью у мужчин и женщин. Последний столбец соответ-
ствузт признаку "ямочки на щеках". Показано доминирование аляаля, контролирующего отсутствие ямочек, причем у женщин v1-vf=0, а у _
мужчин yi.i~vi2~0.zbs.
Таблица 4
Оценки параметров моделей для признаков с различной пэнетрантностыо генотипов у мужчин и женщин
1 2 3 4 5
р 0.641 0.223 0.693 0.412 0.120
iv, 0.000 0.000 0.000 0.658 0.286
1У2 0.000 0.792 0.230 iv) iv,
Щ 1.000 1.000 1.000 1.000 0.828
VI 0.000 0.000 0.000 0.275 0.000
0.464 0.321 0.537 V)
1.000 1.000 1.000 1.000 0.792
Ш -200.08 -181.0 -225.7 -249.4 -263.7
Для двух признаков показана зависимость пенетрантностей генотипов от возраста. Это - форма бровей и эпикантус. Модель наследования з этом случае включает два параметра возрастной зависимости пеиетрантности генотипов, а и Т. Параметры моделей наследозания этих призкакоз представлены в таблице 5.
Таблица 5
Оценки параметров моделей наследования для признаков с возрастной зависимостью
I Р iv, Щ т а Ш
Форма бровей I 0.479 Эпикантус | 0.208 0.000 0.000 0.824 0.000 1.000 13)00 -1.51 27.19 0.051 0.085 -271.6 -234.6
Признак "надбровные дуги" характеризуется тремя фенотипиче-скими проявлениями (х=1 - сильная степень выраженности, х=2 - средняя и х=3 - слабая). Для этого признака показана различная вероятность фенотипической реализации генотипов у мужчин и женщин. Параметры модели наследования представлены в таблице 6.
Таблица 6
Оценки параметров модели наследования для признака "надбровные дуги"
р W, w2 Щ W2 Vj "2 V3 v2 LH
0.297 0.968 0.549 0.681 0.114 0.804 0.655 0.837 0.345 -357.3
Здесь v/r вероятность х=2 у особей с генотипом А,А, (считается, что этот генотип не дает х=3), w2 и w2' - вероятности х-2 и х=3 у особей с генотипом А}А2, w3 - вероятность х=3 у особей с генотипом A^42 (считается, что этот генотип не дает х=1).
Для некоторых из анализируемых признаков был известен моногенный контроль (Sturtevant, 1940; Маккьюсик, 1976; Wiedemann, 1990). В этом случае полученные нами данные дают информацию не столько о механизме наследования, сколько о величине генетических параметров, присущих данной популяции. Для других признаков не удалось найти е литературе примеров подобного сегрегационного анализа, поэтому мы зынуждены считать сам факт установления моногенного контроля этих признаков предварительным.
Заключение
В настоящее время разработка методов генетического анализа, :оторой в значительной степени посвящена данная работа, ведется по ©скольким направлениям. Полученные результаты обеспечивают про-ресс по крайней мере в трех из них.
Первое связано с повышением адекватности методов генетиче-кого анализа и увеличением корректности выводов из его результатов, ■клад данной работы в это направление обеспечивается созданием но-ых методов оценки точности принятия решения о сцеплении, разра-откой новой модели формализации выбора родословных по пробанду, также выявлением ситуаций, где принципиально невозможно получе-ие несмещенных оценок генетических параметров.
Задачей второго направления является оптимизация процесса потения эмпирического материала. В данной работе детально рассмот-эна проблема формирования выборок родословных для анализа сцеп-
ления. Предложен целый ряд методов, позволяющих тестировать сцепление по выборкам реального размера.
Разработка третьего направления обеспечивает доступность методов генетического анализа широкому круг/ практических генетиков. Описанный в работе пакет программ для сегрегационного анализа альтернативных признаков по выборкам родословных произвольной структуры, обладающий широкими возможностями и снабженный специальным сервисным оснащением, способствует развитию этого направления.
Другой, не менее важной задачей данного исследования является решение прикладных задач, направленных на получение новых знаний о генетичесхом контроле признаков человека. Показана возможность моногенного диаплельного контроля семейного сколиоза, аденомятозного полипоза толстого кишечника и большого набора антропоскопических характеристик, подтверждена гипотеза о плейотропном контроле полипоза и первичного рака толстого кишечника.
ВЫВОДЫ
1. Впервые предложена аппроксимация распределения критерия проверки простой альтернативной гипотезы о величине коэффициента рекомбинации по выборке фиксированного размера, Х(0 (,?!), основанная на первых членах рпда Эджворта. Она устаяаплизает соответствие между граничным значением, уровнем значимости и мощностью критерия при заданном объеме выборки и фиксированном значении коэффициента рекомбинации, тем самым обеспечивая корректность принятия решения о наличии или отсутствии сцепления.
Предложен новый метод оценки мощности критерия проверки сложной альтернативной гипотезы о сцеплении по выборке фиксированного размера, А(0*,Я), на основз аппроксимации его распределения нецентральным распределен нем хи-кзадрат с параметром нецентральное™, выраженным через дивергенцию Кульбака.
Продемонстрирована высокая точность предложенных методов оценки мощности критериев сцепления: разница между ожидаемой и полученной в генетихо-стохастическом эксперименте мощностью не превышает 0.023 и находится в пределах выборочных ошибок.
Показано, что при последовательном тестировании сцепления имеет место небольшое занижение реальных ошибок I и // рода по сравнению с декларируемыми, которое не может рассматриваться как. препятствие к практическому использованию общепринятых граничных значений критерия tod score при анализе сцепления по выборкам родословных.
2. Впервые показано существование области значений, в которую никогда не попадает оценка частоты аллеля, полученная методом максимума правдоподобия по выборкам родословных. Ширина этой области не зависит от истинной величины параметра, ока уменьшается с увеличением объема выборки. Достаточным для оценки частоты аллелей может считаться тот объем выборки, при котором указанная область не включает истинное значение параметра.
3. Предложена кооперативная биномиальная модель учета выбора родословных по пробанду, предполагающая, что объектом выбора является не отдельная особь, а родословная. При этом вероятность выбора пробанда перестает быть коногантои, она зависит от числа потенциальных пробандов в данной родословной. Такая модель позволяет расширить набор реальных ситуаций, описываемых широко используемой классической биномиальной схемой выбора.
4. Впервые показано, что ошибки в указании того, среди каких членов родословной выбирался пробанд, приводят к смещению оценок генетических параметров и ошибочному отвержению мендзлевской сегрегации. Показано, что правильность указания пробандного статуса играет не меньшую роль в корректности генетического анализа, чем точное определение реальной схемы выбора.
5. Показано, что использование информации о сцепленном маркерном гене позволяет увеличить популяционную точность прогнозирования фенотипов первого потомка по данным о его родственниках только при определенных сочетаниях частот аллелей маркерного гена и коэффициента неравновесности. Расширение родословной за счет представителей предыдущего поколения, несущих информацию о фазе сцепления генов у дигетерозиготного родителя прогнозируемого потомка, позволяет увеличить точность генетического прогнозирования при любых моделях наследования аномалии, а за счет других родственников -только при моделях наследования, близких к рецессивной или доминантной.
6. Предложено несколько способов оптимизации сбора семейного материала для анализа сцепления.
Впервые показано, что коррекция способа выбора родословных по пробанду может рассматриваться как путь оптимизации формирования выборки, особенно эффективный при рецессивном и доминантном контроле анализируемого признака.
Предложен способ оценки трудоемкости получения выборки родословных. Показано, что не всегда совпадают ранги эффективности разных способов выбора, оцененные по необходимому объему выборки и по трудоемкости ее получения.
Показано, что расширение родословной, широко рекомендуемое для определения фазы сцепления генов у дигетерозиготного родителя, эффективно далеко не всегда. Родители дигетерозиготнсй особи, имеющие одинаковые фенотипы или маркерные генотипы, не несут информации о фазе сцепления генов у их потомка. Однозначное установление фазы сцепления генов по фенотипическйм характеристикам родителей возможно только при рецессивном или доминантном контроле анализируемого признака. При произвольной пенетрантности генотипов можно оценить только вероятность каждой их фаз сцепления.
Предложен вариант стратегии последовательного направленного расширения родословной, основанный на сравнительном анализе информативности различных групп родственников и позволяющий увеличить общую информативность выборки.
7. Создан пакет программ для сегрегационного анализа альтернативных признаков, позволяющий тестировать моногенные диаллельные гипотезы о контроле признака. Предусмотрена возможность учета а) модификации пенетрантностей генотипов фоновым количественным признаком, б) полового диморфизма в пенетрантностях генотипов. Реализован большой набор моделей формализации выбора родословных по пробанду. Создано специальное сервисное оформление пакета, делающее генетический анализ доступным для широкого класса практических генетиков.
8. Проведен анализ ряда признаков по реальным выборкам родословных человека. Показана возможность моногенного контроля семейного сколиоза, аденоматозного полипоза толстого кишечника и большого набора антропоскопических характеристик человека. Подтвержде-
ка гипотеза о плейотропном контроле аденоматозного полипоза и рака толстого кишечника.
Список работ, опубликованных по теме диссертецик
1. Аксснович Т.И. Генетический анализ при семейной гиперхолестери-неыии // Материалы I Всесоюзного съезда медицинских генетиков. Киав, 1984.
2. Аксенович Т.И. Пакет программ для генетического анализа альтернативных признаков и его использование в медицинской генетике // Материалы V съезда ВОГИС. 1987. 4.2. С.5-6.
3. Аксаноаич Т.И. Установление фазы сцепления геноз по фенотипам ■ родителей Ц Генетика. 1995. Т.31. N 8. С.Г.68-1176.
4. Аксенович Т.И. К вопросу о выборе родословных по пробанду // Генетика. 1995. Т.31. N 12. С. 1693-1697.
5. Аксенович Т.И., Гинзбург Э.Х. Система программ для мендзлевского анализа альтернативных признаков по выборкам родословных произвольной структуры M АН А-1. Новосибирск: ИЦиГ СО АН СССР, 1986. Препринт. 24 с.
С. Аксенович Т.И., Гинзбург Э.Х. Проверка моиогенной гипотезы на родословных произвольной структуры, выбранных по пробанду. Сообщение И. Проблемы прогнозирования // Генетика. 15Я6. Т.22. N 3. С.423-433.
7. Аксенович Т.н., Гинзбург Э.Х. Система для мендеяевского анализа альтернативных признаков (МАН-А1) // Генетика. 1937. Т.23. N 2. С.268-273.
8. Аксенович Т.И., Гинзбург Э.Х. Оптимальное планирование выборки для анализа сцепления // вторая всесоюзная конференция "Гамом челоаека-9Г. Москва, 1991. С.99-100.
9. Аксенович Т.И., Гинзбург Э.Х. О планировании выборки для анализа сцепления. Информативность отдельных родословных // Генетика. 1993. Т.29. N 8. С. 1394-1403.
10. Аксенович Т.И., Гинзбург Э.Х. О планировании выборки для анализа сцепления. Объем выборки и способы выбора // Генетика. 1993. Т.29. N 9. С.1544-1553.
11. Аксенова Т.Н., Гинзбург Э.Х. О планировании выборки для анализа сцепления. Произвольная пекатрантность// Генетжа 19«« т«*» N 10. С.1741-1749.
12. Аксенова Т.Н., Гинзбург Э.Х. Планирование выборки родоспоаны* для анализа сцепления //Тез.докл. Ш Российского Съезда медицинских генетиков. М., 1994. С.135.
13. Аксенович Т.Н., Гинзбург ЭХ, Шэрудило А.И. Точность генетического прогноза по родословным, выбранным по пробанду // Известия СО АН СССР. 1969. Вып.З. С.32-39.
14. Аксенович Т.И., Гинзбург ЭХ, Шпрудияо А.И. Точность генетического прогноза по родословным // Известия СО АН СССР. Сер. Зиол. 1989. Вып.2. С.42.
15. Аксенович Т.И., Дегтярев Г.Ю. Анализ критериев для проверки монотонной гипотезы // Известия СО АН СССР. Сор. биол. 198В. Вып 2. С.42.
16. Аксенович Т.И., Семенов И.Р., Гинзбург ЭХ, Зайдман A.M. Предварительный анализ наследования сколиоза // Генетика. 1S83. Т 24 N 11. С.2058-2064.
17. Аксенович Т.И., Филимонов А.В. Изменение точности генетического прогнозирования при использования информации о сцепленных маркерах // Генатикз. 1994. Т.ЗО. Приложение. С.5.
13. Гинзбург Э.Х., Аксенович Т.И. Проверка монотонной гипотезы на родословных произвольной стру^уры, выбранных по пробанду. Сообщение t. Альтернативный признак // Генетика. 1986 Т 22 N 3 С.413-422.
19. Гинзбург Э.Х., Аксенович Т.И. Проверка моногенной гипотезы на родословных произзольной структуры, выбранных по пробанду. Сообщение I!!. Количественный признак // Генетика. 1986 Т22 N 4 С.599-608.
20. Гинзбург Э.Х., Аксенович Т.И. Обоснование эвристических схем выбора по пробанду // Известия СО АН СССР. Сер.биол. 1991. Вып 5 С.3-9.
21. Гинзбург Э.Х., Аксенович Т.И. Аппроксимация распределения критерия для рекомбикзционного анализа // Известия СО АН ССР, сер.биол. 1992. Выл.1. С.3-13.
22. Гинзбург Э.Х., Аксенович Т.И., Альтшулор Б.А., Баженова M .Д. Сегрегационный анализ наследственного полипоза толстой кишки // Генетика. 1987. Т.23. N 8. С:1499-1510.
23. Гинзбург Э.Х., Аксенович Т.И., Мейманалиев Т.С., Исмаилова Ч.С., Подгурская Л.П., Кошалиев Э.К. Зависимость характеристик липид-ного обмена от пола, возраста и особенностей питания //Материалы симпозиума "Патофизиологический анализ факторов риска артериальной гипертензии и атеросклероза". Новосибирск, 1992. С.26-28.
24. Гинзбург Э.Х., Аксенович Т.Н., Персоза Т.Б., Бабенко В.Н. Сервисное обеспечение пакета для генетического анализа признаков по выборкам родословных // Материалы i (Ш) Российского съезда медицинских генетиков. Москва, 1S94.4.2. С.151-152.
25. Исмаилова Ч.С., Гинзбург Э.Х., Аксенович Т.И., Кошалиев Э.К., Подгурская Л.П., Мейманалиев Т.С. О возможности моногенного контроля концентрации холестерина в крови для кыргызской популяции // Генетика. 1993. Т.29. N 12. С.2081-2091.
26. Исмаилова Ч.С., Гинзбург Э.Х., Аксемозич Т.И., Кошалиев Э.К., Подгурская Л.П., Мейманалиев Т.С. Сегрегационный анализ некоторых аитропоскопических характеристик. I. Альтернативные признаки с независимой от возраста пеиатрантностью // Генетика. 1994. Т.ЗО. N 6. С.843-850.
27. Исмаилова Ч.С., Гинзбург Э.Х., Аксенович Т.И., Кошализв Э.К., Подгурская Л.П., Мейманалиев Т.С. Сегрегационный анализ некоторых аитропосколических характеристик. It. Возрастная зависимость и признаки с тремя фенотипическими проявлениями // Генетика. 1994. Т.ЗО. N 7. С.969-973.
28. Исмаилова Ч.С., Гинзбург Э.Х., Аксенович Т.И., Кошалиев Э.К., Подгурская Л.П., Мейманалиев Т.С. О возможности майоргенного контроля концентрации холестерина в крови для кыргызской популяции // III Съезд медицинских генетиков. 1994. С.226.
29. Axenovich T.I. Identification of linkage phase // Gsnet. Epidemiol. 1995. V.I2. N 3. P.329-33Û.
30. Borodin G.M., Perelygin A.V., Axenovich T.I., Trapezov O.V., Serov O.L Genetic control of PI and GC variants in the American mink // Animal Genetics. 1995. V.26. P.460-463
31. Ginsburg E.Kh., Axenovich T.I. A cooperative binomial ascertainment model//Am.J.Hum.Genet. 1992. V.51. N 5. P.1156-1160.
32. Ginsbuig E.Kh., Axenovich T.I., Aitshouter B.A., Baiirenova M.D. On the possibility of pteiotropio monogenic control of hereditary polyposis and primary cancer of the colon // Am.J.Hum. Genet. 1389. V.44. N 2. P.191-197.
Подписано к печати 27.10.1995 Формат бумаги 60x90 1/16. Печ.л.2. Уч.-изд. л.1,4. Тираж 100 зхз. Захэз 44.
Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, пр. академика М.А.Лаврентьева, 10.
- Аксенович, Татьяна Иосифовна
- кандидата биологических наук
- Новосибирск, 1995
- ВАК 03.00.15
- Развитие методов сегрегационного анализа
- Генетический анализ некоторых характеристик человека
- Анализ сцепления высокополиморфных локусов генома с наследственными заболеваниями: врожденной катарактой и ладонно-подошвенным гиперкератозом
- Анализ сцепления высокополимерных локусов генома с наследственными заболеваниями человека: врожденной катарактой и ладонно-подошвенным гиперкератозом
- Разработка моделей наследования признаков с ограниченным возрастом проявления