Бесплатный автореферат и диссертация по биологии на тему
Разработка и применение методов полногеномного анализа генетических ассоциаций сложных признаков
ВАК РФ 03.02.07, Генетика

Автореферат диссертации по теме "Разработка и применение методов полногеномного анализа генетических ассоциаций сложных признаков"

На правах рукописи

Аульченко Юрий Сергеевич

Разработка и применение методов полногеномного анализа

генетических ассоциаций сложных признаков

03.02.07-генетика

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора биологических наук

Новосибирск 2010

1 8 НОЯ 2010

004613032

Работа выполнена в лаборатории рекомбинационного и сегрегационного анализа Учреждения Российской академии наук Инстшут цитологии и генетики Сибирского отделения РАН, г. Новосибирск, Россия

Официальные оппоненты: доктор биологических наук, профессор

Маркель А. Л.

Институт цитологии и генетики СО РАН, г. Новосибирск

доктор биологических наук, профессор Поляков А. В.

Медико-генетический научный центр РАМН, г. Москва

доктор биологических наук, профессор Гуляева Л. Ф.

Научно-исследовательский институт молекулярной биологии и биофизики СО РАМН,

г. Новосибирск

Ведущее учреждение: Учреждение Российской академии

Медицинских наук НИИ медицинской генетики СО РАМН, г. Томск

Защита диссертации состоится /¿¿УЯ fit! Л 2010 г. на утреннем заседании диссертационного совета Д 003.0/1.01 при Институте цитологии и генетики СО РАН по адресу: 630090, Новосибирск, Россия, пр. ак. Лаврентьева, 10, тел/факс (383) 333-12-78, e-mail: dissov@bionet.nsc.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН

Автореферат разослан " /Л " 2010 г.

Ученый секретарь диссертационного совета,

доктор биологических наук ty"\ Т. М. Хлебодарова

Общая характеристика работы

Актуальность

Идентификация генов и аллелей, контролирующих разнообразие сложных признаков, является важной теоретической и прикладной задачей генетики. Информация об этих генах позволяет получить новые знания о биологических системах, участвующих в формировании таких признаков. Кроме того, знание конкретных аллельных вариантов, контролирующих сложные признаки человека, находит применение в таких областях как криминалистика и медицина. Для сельскохозяйственных и домашних животных знание аллельных вариантов позволяет вести направленную эффективную селекцию.

Исходная популяция, из которой формируется выборка для " изучения генетического контроля признаков, может быть инбредной (модельные объекты), либо аутбредной. По структуре, выборки подразделяют на фиксированные (направленные скрещивания инбредных линий, некоторые скрещивания сельскохозяйственных или домашних животных) и произвольные, т.е. такие, структура которых не находится под контролем исследователя. В данной работе в качестве материала для генетического анализа мы рассматриваем выборки произвольной структуры, полученные из аутбредных популяций человека, сельскохозяйственных и домашних животных. При этом предполагается, что выборка формируется из одной исходной популяции.

Существует несколько подходов к идентификации генов и аллелей в выборках произвольной структуры, полученных из аутбредных популяций. Один из подходов предусматривает тестирование генов-кандидатов, т.е. исследование ассоциации признака с аллелями гена, участие которого в формировании признака можно предположить на основании накопленных данных. Ясно, что основным недостатком этого метода является невозможность получения принципиально новой информации о биологии признака, так как метод существенно ограничен уже имеющимися знаниями.

Этот недостаток подхода, основанного на поиске генов-кандидатов, устраняется при проведении полногеномного картирования. При этом подходе для поиска локусов, контролирующих признак, используется большое количество маркеров, покрывающих весь геном. Исторически, первым широко применяющимся методом полногеномного анализа стал анализ сцепления.

При анализе сцепления выборка, состоящая из близких родственников с известными значениями исследуемого признака, генотипируется с применением панели из 200-10,000 полиморфных маркеров, покрывающих весь геном. Далее, анализируется совместное наследование (сцепление, или косегрегация) признака и маркерных генотипов. Значимое сцепление указывает регион (как правило, довольно большой - от двух до пятидесяти миллионов пар оснований), содержащий ген, высокопенетрантные аллели которого оказывают влияние на изучаемый признак. Метод анализа сцепления хорошо зарекомендовал себя при идентификации генов простых менделевских признаков. Хотя с начала 1990-х годов этот метод широко применялся для изучения сложных признаков человека, он дал удручающе мало результатов. Идентифицированные гены, как правило, объясняли малую долю случаев болезни, так как метод позволяет картировать в основном относительно редкие «менделевские» семейные формы сложных заболеваний.

Одним из наиболее перспективных современных методов, применяемых для идентификации локусов, контролирующих сложные признаки, является метод полногеномного анализа ассоциаций (Genome-Wide Association, GWA). При проведении этого анализа сотни тысяч однонуклеотидных полиморфизмов (SNP), распределенных по всему геному, типируются в группах людей с известным значением изучаемого признака. Анализ ассоциации между распределением генотипов и фенотипов позволяет установить связь между аллельной вариацией в некотором регионе генома и исследуемым признаком.

В момент начала работы по теме данной диссертации метод полногеномного анализа ассоциаций ещё не являлся общепринятым методом исследования генетики сложных признаков человека и аутбредных животных. Необходимо было оценить теоретическую возможность таких исследований, рассмотреть вопросы наиболее эффективного формирования выборки, разработать методы статистического анализа полногеномных данных и создать пакеты прикладных программ, позволяющих осуществлять такой анализ. Именно этим теоретическим вопросам, а также апробации полученных методических разработок на реальных данных посвящена данная диссертация.

Цели и задачи исследования

Целью исследования является разработка методов полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций, апробация этих методов на реальных данных и

идентификация новых локусов, контролирующих сложные, в том числе патологические, признаки человека. Для достижения цели были поставлены следующие задачи:

1. Исследовать возможные стратегии формирования выборки для картирования локусов, контролирующих сложные признаки человека методом полногеномного анализа ассоциаций. В частности, сравнить преимущества и недостатки формирования выборки из представителей молодых генетически изолированных и открытых популяций человека.

2. Разработать методы и программное обеспечение для проведения полногеномного анализа ассоциаций на материале выборок произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных.

3. Провести апробацию разработанных методов и программного обеспечения на примере полногеномного анализа уровней липидов крови и роста человека; определить новые локусы, участвующие в контроле этих признаков.

4. Оценить прогностический потенциал геномных данных для предсказания значений количественных признаков (на примере уровней липидов крови и роста человека) и вероятности развития определенного фенотипа (на примере гиперхолестеринемии и крайних вариантов роста).

Научная новизна

Показано, что в молодых генетически изолированных популяциях эффект дрейфа генов, выражающийся в потере или существенном увеличении частоты некоторых аллелей, выражен для аллелей с начальной частотой <1% и мало заметен для аллелей с начальной частотой >5%.

Показано, что длины карт неравновесия по сцеплению для молодых генетически изолированных популяций на ~30% меньше, чем для открытой популяции человека, что увеличивает мощность идентификации генетических локусов, ассоциированных с изучаемыми признаками.

Разработаны новые методы анализа ассоциации в рамках модели «измеренных генотипов», позволяющие анализировать выборки произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных. Эти методы являются статистически мощными и вычислительно эффективными.

Создан пакет эффективных компьютерных программ для полногеномного анализа ассоциаций количественных и бинарных

признаков в популяционных и семейных выборках человека и аутбредных животных.

В ходе апробации разработанных методов и пакетов программ, проведен полногеномный анализ ассоциаций уровней липидов в крови человека. Впервые подобный анализ проведен на популяционных выборках, а в набор картируемых характеристик липидного обмена введен уровень общего холестерина. Идентифицировано шесть новых локусов, контролирующих уровни липидов в крови человека. Также проведен полногеномный анализ роста человека и идентифицирован новый локус, JAZF1, контролирующий этот признак.

Показано, что геномный профиль роста объясняет 4-6% дисперсии этого признака. Геномные профили липидов объясняют существенную долю (1-7%) дисперсии этого признака; эта доля сравнима с таковой, объясняемой индексом массы тела.

Впервые показано, что геномный профиль общего холестерина является предиктором дислипидемии и статистически значимым, независимым от уровня циркулирующего холестерина, предиктором толщины комплекса интима-медиа сосудистой стенки. Из всех геномных профилей классических липидов, геномный профиль холестерина является наилучшим предиктором дислипидемии, ишемической болезни сердца и атеросклероза.

Теоретическая и практическая ценность

Полученные нами оценки вероятности потери аллелей, коэффициентов вариации частот аллелей, а также длины карты неравновесия по сцеплению позволили сделать важный теоретический вывод о том, что мощность метода полногеномного анализа ассоциаций в среднем выше, если используются выборки из молодых генетически изолированных, а не из открытых популяций. Далее, мы показали, что результаты анализа ассоциаций, проведенного на выборках из молодых генетически изолированных популяций в целом должны совпадать результатами, полученными в открытых популяциях человека. Эти выводы предоставили теоретическое обоснование для дальнейших практических полногеномных исследований сложных признаков с использованием генетически изолированных популяций человека (например, консорциумы EUROSPAN, ENGAGE, CHARGE, другие исследования). В настоящее время использование материала из молодых генетически изолированных популяций для верификации результатов, полученных на материале открытых популяций (и наоборот) является общепринятым.

Разработанные нами новые методы и пакеты программ широко применяются в исследованиях генетики сложных признаков человека, сельскохозяйственных и домашних животных. В частности, список зарегистрированных пользователей нашего пакета GenABEL составляет более 250 человек; статьи, представляющие результаты наших методических разработок, цитировались более 70 раз.

Наши полногеномные исследования контроля уровня холестерина в крови человека доказали важность этого признака и частично сместили акценты в исследованиях геномного контроля липидов; так, на основании этого результата консорциум GLGC (Global Lipids Genetics Consortium) включил уровень общего холестерина в список исследуемых характеристик.

Идентифицированные нами новые локусы, участвующие в контроле уровня липидов в крови и роста человека, расширили представления о механизмах контроля нормальной вариации этих признаков в популяциях человека. Кроме того, мы идентифицировали новый локус роста тела, JAZF1, обладающий плейотропным действием, что расширяет имеющиеся представления о механизмах генетического контроля роста и связи между раком, аутоиммунными заболеваниями и ростом тела.

Полученные результаты используются в нескольких курсах, преподаваемых в НГУ и медицинском центре «Эразмус» (GE03, "Advances in population-based analysis"; GE05, "Family-based genetic analysis"), а также использовались в лекциях на школах молодых ученых, проходивших в Москве, Уфе и Томске.

Положения, выносимые на защиту

1. Полногеномный анализ ассоциаций, проводимый с использованием разработанных нами алгоритмов и пакетов программ, является мощным и воспроизводимым методом идентификации эффектов распространенных аллелей.

2. Молодые генетически изолированные популяции являются лучшим ресурсом для выявления и изучения как распространенных, так и редких аллелей, влияющих на изучаемые сложные признаки.

3. Геномный профиль холестерина является наилучшим геномным предиктором дислипидемии, ишемической болезни сердца и атеросклероза.

4. Разработанный нами метод GRAMMAR-GC является статистически мощным и вычислительно эффективным методом

полногеномного анализа ассоциации в выборках особей, связанных родством. 5. Локус JAZF1 помимо участия в контроле диабета второго типа, рака простаты и системной красной волчанки также принимает участие в детерминации роста.

Личный вклад автора

В диссертации представлены результаты, полученные автором в сотрудничестве с учеными из России и многих стран мира.

Все экспериментальные данные (выборки, генотипирование, фенотипирование) получены в рамках сотрудничества. Автор принимал активное участие в планировании выборки ERF, являвшейся одним из основных ресурсов при проведении данной работы. Во всех исследованиях, представленных в данной работе, автор выступал в качестве руководителя и/или основного исполнителя.

Апробация работы

Результаты работы, изложенной в данной диссертации, были представлены на следующих конференциях и симпозиумах:

• WEON (Werkgroep Epidemiologisch Onderzoek Nederland), (Rotterdam, The Netherlands, 2003). Presentation "Linkage disequilibrium in recently isolated Dutch population"

• 6th International Conference "Health Insurance in Transition" (Dubrovnik, Croatia, 2003). Invited talk "ERF study: Erasmus family research in isolated population"

• 9th Quantitative Trait Loci / Marker Assisted Selection Workshop (Rostock, Germany, 2004). Invited talk "Preliminary analysis of the Erasmus Rucphen Family Study"

• Haplotype Sharing Workshop, (Heidelberg, Germany, 2006). Invited talk "Haplotype sharing, linkage disequilibrium and complex genealogies"

• 9я школа-семинар по популяционной генетике (Уфа, 2006). Доклад "Методы генетической эпидемиологии сложных признаков человека"

• VIII научная конференция «Генетика человека и патология» (Томск, 2007). Доклад «Методы картирования комплексных признаков человека»

• 58th Annual Meeting of American Society of Human Genetics (Philadelphia, USA, 2008). Platform presentation "First neuronally expressed gene associated with multiple sclerosis."

• European Mathematical Genetics Meeting (Munich, Germany, 2009). Invited talk «Predicting human height by Victorian and post-genomic methods»

• Dutch human genetics society meeting (Veldhoven, The Netherlands, 2009). Presentation «Genome-wide association analysis of 16 European populations ' identifies novel loci influencing lipid levels»

• Genetics of complex diseases in isolated populations (Trieste, Italy, 2009). Invited talk «Meta-analysis of genome-wide association scans»

• V Съезд Вавиловского общества генетиков и селекционеров (Москва, 2009). Доклад «Количественная ингегративная геномика сложных признаков человека»

• European Mathematical Genetics Meeting (Oxford, UK, 2010). Invited talk «Challenges in statistical genomics of complex human traits»

Публикации no теме диссертации

Результаты работы, изложенной в данной диссертации, были опубликованы в виде 37 статей в рецензируемых научных журналах, в том числе в «New England Journal of Medicine», «Nature Genetics», «American Journal of Human Genetics», «PLoS Genetics», «Human Molecular Genetics».

Объём и структура диссертации

Диссертация состоит из пяти глав. Объем диссертации составляет 290 страниц, диссертация включает 34 таблицы и 25 иллюстраций.

Результаты исследований и их обсуждение

Аллелъный спектр и структура неравновесия по сцеплению в популяциях человека

Мощность картирования с помощью анализа ассоциаций в большой мере зависит от частот аллелей, контролирующих болезнь, и от степени неравновесия по сцеплению (linkage disequilibrium, LD) между ними и аллелями маркерных локусов (Muller-Myhsok and Abel 1997). Последнее в значительной степени определяется возрастом мутаций, историей, размером и структурой исследуемой популяции.

Для будущих проектов картирования с помощью LD важно знать ожидаемые частоты маркерных аллелей, а также величину и геномный паттерн LD в различных популяциях. Распределение неравновесия по сцеплению является предметом активных дебатов и широко изучается в различных популяциях человека (Eaves et al. 2000; Service et al. 2001; Lonjou et al. 2003; Varilo et al. 2003). В эмпирических исследованиях было показано, что характер снижения LD при увеличении генетического расстояния не всегда в точности соответствует

ожидаемому на основе стандартных моделей популяционной генетики. Описаны примеры слишком низкого, по сравнению с ожидаемым, LD на расстоянии нескольких тысяч пар оснований и очень высокого LD на значительно больших расстояниях (Weiss and Clark 2002). Другие исследования показали, что LD варьирует между популяциями и что распределение LD нерегулярно в пределах генома (Collins et al. 1999; Abecasis et al. 2001). Таким образом, прежде чем приступать к картированию генов методом полногеномного анализа ассоциаций, необходимо описать и сравнить LD в разных популяциях.

В открытых популяциях человека велика генетическая и средовая гетерогенность, и поэтому необходимо включать в анализ очень большие выборки (heutink and oostra 2002). Размер выборки можно уменьшить, если анализировать материал из генетически изолированной популяции, где средовое разнообразие меньше, а генетический фон более гомогенный (sheffield et al. 1998; chakraborty and Deka 2002). Дрейф генов и эффект основателя в целом снижают генетическое разнообразие в изолированных популяциях. Однако некоторые мутации, редко встречающиеся в других популяциях, в генетических изолятах могут стать довольно частыми. Например, в популяции Финляндии с высокой частотой выявляются наследственные расстройства и аллельные варианты, которые больше практически нигде не встречаются (norio et al. 1973; plhlaja et al. 2003). с одной стороны, частота этих аллелей в популяции Финляндии относительно высока, и это позволяет изучать генетическую детерминацию таких признаков с высокой статистической мощностью. с другой стороны, перечисленные особенности популяции являются её недостатком, так как обнаруженные аллели не могут быть использованы для предсказания риска болезни в других популяциях.

Другим преимуществом изучения генетически изолированных популяций является то, что неравновесие по сцеплению может быть обнаружено на больших расстояниях. Однако степень неравновесия по сцеплению и генетическое разнообразие варьируют в разных изолированных популяциях. В результате некоторые из популяций больше подходят для полногеномного анализа ассоциаций, чем другие (Wright et al. 1999).

В Европе существует большое число молодых генетически изолированных популяций, изоляция которых обусловлена религиозными причинами, а период основания совпадает с периодом реформации (XVIII век). Как правило, эти популяции характеризуются высокой степенью изоляции и экспоненциальным ростом в течение последних 150-200 лет. Такие популяции могут характеризоваться

измененным аллельным спектром и повышенным LD, и, таким образом, представлять ценный ресурс для картирования генов комплексных признаков. Однако генетическим исследованиям таких популяций уделялось до недавнего времени мало внимания.

Мы рассмотрели вопрос, насколько аллельный спектр и структура неравновесия по сцеплению молодых генетически изолированных популяций человека отличаются от таковых в открытых популяциях. Сравнение аллельного спектра позволяет определить насколько генетические результаты, полученные в изолированных популяциях, экстраполируемы на открытые популяции и обратно. Сравнение структуры неравновесия по сцеплению позволяет ответить на вопрос об относительной эффективности использования различных популяций человека для картирования генов с помощью полногеномного анализа ассоциаций.

При изучении эффекта дрейфа генов в качестве примера молодой генетически изолированной европейской популяции нами была использована популяция из Нидерландов, изучаемая в рамках программы GRIP (Genetic Research in Isolated Populations). Однако полученные результаты применимы к большому числу изолятов со сходной популяционной историей. Используя компьютерное моделирование и косвенные эмпирические данные, мы показали, что в популяции GRIP снижено генетическое разнообразие (Таб. 1). Это повышает мощность генетического анализа. Кроме того, мы показали, что для определенной доли аллелей, которые редки в открытой популяции, в генетически изолированных популяциях частота может быть резко повышена за счет стохастических причин. Если такие аллели обладают функциональным эффектом на фенотип или находятся в LD с функциональными вариантами, повышенная частота будет транслироваться в увеличение мощности их идентификации. Мы показали, что аллели, распространенные (частота >5%) в исходной популяции сохраняют высокую частоту как в молодых генетических изолятах, так и в открытых популяциях. Применяющиеся в настоящее время ДНК-чипы содержат именно распространенные полиморфизмы. Поэтому следует ожидать, что при использовании таких чипов большинство найденных ассоциаций будут сходны между молодыми генетически изолированными популяциями и большими открытыми популяциями того же происхождения. Следовательно, результаты полногеномного анализа ассоциаций, проведенного в молодых генетически изолированных популяциях, могут быть обобщены на открытую популяцию, и наоборот.

Таб. 1. Распределение частот аллелей в последних поколениях родословной ERF при различных начальных частотах р0.

Потеря/возрастание частоты аллеля в*

Начальная частота Щ))Средняя Медиана SJ5 SB"* Минимум Максимум 95% а. Коэфф. вариации** Потеря*** Потеря >2 раза ? 5 раз > 10 раз

0.0001 0.0001 0 0.0012 0.001 0 0.0626 0.000-0.001 12 0.973 0.954 0.046 0.046 0.026

0.001 0.001 0 0.0031 0Л02 0 0.0631 0.000-0.009 3.1 0.759 0.615 0.115 0.0483 0.02

0.01 0.0099 0.0068 0.0095 0.007 0 0.0883 0.001-0.037 0.9 0.064 0.0083 0.1178 0.0068 0

0.025 0.0304 0.0268 0.0163 0.011 0.0021 0.1104 0.008-0.072 03 0.001 0 0.11 0 0

0.05 0.0499 0.0468 0.0207 0.015 0.0039 0.1729 0.019-0.098 0.42 0 0 0 0 0

0.1 0.1002 0.0967 0.0292 0.021 0.0278 0.2634 0.053-0.167 0.29 0 0 0 0 0

0.25 0.2496 0.2482 0.0413 одзо 0.1215 0.4306 0.175-0.335 0.16 0 0 0 0 0

05 0.5003 0.5 0.0468 0.035 03333 0.6666 0.407-0.591 0.09 0 0 0 0 0

* - оцененная в численном эксперименте частота потери аллеля / возрастания его начальной частоты в определенное

число раз; ** - коэффициент вариации, оцененный как стандартное отклонение (вО), деленное на среднее значение;

*** - БЭ и вероятности потери, оцененные аналитически на основе популяционно-генетической теории.

Однако разница в структуре LD может привести к различию в мощности анализа в этих двух типах популяций. Поэтому далее мы анализировали эмпирические данные по генотипам полиморфных маркеров для характеризации LD в ряде генетически изолированных популяций человека.

Мы изучали LD в популяции GRIP с помощью высокополиморфных микросателлитных маркеров и провели сравнение с молодыми изолированными популяциями Палау, Микронезии (Devlin et al. 2001) и Центральной Долины Коста-Рики (Service et al. 2001). В этих популяциях, а также в более старых популяциях, подверженных сильному генетическому дрейфу (саамы и гавои, (varilo et al. 2000; Zavattari et al. 2000)) распределение LD было сходным. Для синтенных локусов, неравновесие по сцеплению было найдено на больших расстояниях, что подчеркивает ценность молодых генетически изолированных популяций для картирования генов. Неравновесие по сцеплению было меньше и убывало с расстоянием быстрее в открытой популяции Великобритании и в более старых изолятах большого размера, претерпевших экспоненциальное расширение (Сардиния, Финляндия) (Varilo et al. 2000; zavattari et al. 2000).

В принципе, смешение с другими популяциями и дрейф могут приводить к «ложному» LD между несцепленными локусами, затрудняя полногеномный анализ ассоциаций. Однако для популяции GRIP нами было показано отсутствие статистически значимого LD между несцепленными локусами.

Далее, мы сконструировали метрические карты неравновесия по сцеплению для одиннадцати молодых и старых генетических изолятов различного размера, а также для открытой популяции (Таб. 2). В целом, сравнение двенадцати популяций демонстрирует, что изолированные популяции, недавно пережившие период быстрого роста и берущие начало от небольшого числа основателей, имеют более высокий общий уровень LD, чем открытые популяции, а также имеют гораздо меньше районов очень низкого LD. Было показано, что в таких популяциях карта LD на -20-45% короче, чем в открытых популяциях. Таким образом, следует ожидать, что при использовании одной и той же панели маркеров геномное покрытие в генетически изолированных популяциях будет лучше, чем в открытой популяции, приводя к аналогичному (--20-45%) повышению ожидаемой мощности полногеномного анализа ассоциаций. Принимая во внимание большой масштаб полногеномных исследований (тысячи образцов, генотипирование каждого из которых может быть довольно дорого),

Таб. 2. Карта 1Л) хромосомы 22 для двенадцати популяций.

Популяция Длина карты ЬБв 1ЛХР Отношение ьои/мб Число пробелов из Общий размер пробелов Ю

Антиокия, Колумбия 581.9 17.01 31 1,092

Ашкенази 656.5 19.19 26 975

Азоры 864.5 25.27 84 2,709

Открытая популяция 845.1 24.70 84 2,574

Центральная Долина Коста-Рики 572.1 16.72 23 821

Юго-восток Нидерландов 620.8 18.15 29 1,166

Северная Финляндия 523.9 15.31 21 821

Финский гоолят Куусамо 368.3 10.77 5 146

Население Финляндии 606.5 17.73 26 731

Ньюфаундленд 790.4 23.10 69 2,014

Африканеры 794.1 23.21 76 2,633

Сардиния, провинция Нуоро 681.4 19.92 38 1,241

* LDU - LD units; расстояние, на котором LD падает в два раза.

исследование генетически изолированных популяций следует признать экономически выгодным.

В некоторых районах генома, которые мы назвали «пробелами», неравновесие по сцеплению падает чрезвычайно быстро, и, таким образом, в этих районах картирование с помощью анализа ассоциаций может быть затруднено. Пробелы IX) были определены как промежутки размером > 2.5 ЫЭи (расстояние, на котором 1ЛЗ падает в два раза) между соседними БИР на карте 1ЛЭ. В целом, как и ожидалось, число пробелов 1ЛЭ было связано обратной зависимостью с длиной карты 1ЛЭ (Таб. 2). Представляется вероятным, что некоторые из таких областей, обладающих, судя по всему, чрезвычайно высокой рекомбинационной частотой, не могут быть исследованы в рамках полногеномного анализа ассоциаций и будут исследованы с помощью технологий нового поколения, позволяющих ресеквенировать индивидуальные геномы.

Разработка методов генетического картирования с помощью неравновесия по сцеплению

Мы показали, что использование генетически изолированных популяций человека позволяет повысить мощность картирования. Однако полногеномный анализ ассоциаций в таких популяциях, выборки из которых представляют собой, по существу, большие родословные, требует разработки специальных методов. Сходная структура выборок -большие родословные - характерна для популяций аутбредных домашних и сельскохозяйственных животных.

Ожидается, что генетический контроль сложных признаков осуществляется множественными генами, при этом вклад каждого отдельного гена может быть невелик. Например, один из наиболее • изученных локусов количественного признака (quantitative trait locus, QTL) -APOE, - достоверно и устойчиво ассоциирован с повышенным уровнем общего холестерина. Все же он объясняет лишь около 2-5% дисперсии данного признака (Sing and davignon 1985; isaacs et al. 2007).

При идентификации аллелей малого эффекта анализ ассоциаций потенциально имеет более высокую мощность и более высокую разрешающую способность по сравнению с классическим анализом сцепления (RisCH and Merikangas 1996). В последние годы был достигнут значительный методологический и технический прогресс в области анализа ассоциаций. Большой упор был сделан на анализ выборок неродственных пациентов и здоровых людей (выборка типа «случай-контроль»), взятых из открытой популяции, а также на картирование бинарных и количественных признаков с использованием семейных данных (см. обзор (forabosco et al. 2005)). Для картирования QTL в родословных был разработан ряд методов анализа ассоциаций и программных пакетов, использующих информацию о передаче аллелей. Эти методы включают, например, ортогональный тест значимости внутрисемейной дисперсии (quantitative trait transmission disequilibrium test, QTDT) (Abecasis et al. 2000) и метод тестирования ассоциаций на семейных данных (family-based association test, fbat) (Lange et al. 2002; horvath et al. 2004). Поскольку эти методы анализируют ассоциацию между признаком и передачей аллелей маркера, т. е. используют только внутрисемейную дисперсию, их результаты являются несмещенными даже в присутствии подразделенности (этнической гетерогенности) исследуемой популяции. Однако эти методы игнорируют большой объем информации, заключенный в межсемейной дисперсии, оставляя

пространство для дальнейшего совершенствования методов картирования.

При анализе открытых и недавно смешанных популяций можно ожидать, что в выборку могут попасть этнически разные особи. В то же время, в популяциях, которые тщательно отбирались для анализа с использованием строгих критериев этнического происхождения, а также в генетически изолированных популяциях, риск подразделенности минимален. Более того, генетическая подразделенность может быть обнаружена с помощью генетических маркеров (Pritchard et al. 2000; Falush et al. 2003), и особи, значительно отличающиеся от остальной выборки, могут быть исключены из дальнейшего анализа, либо анализ может быть скорректирован на подразделенность.

В отсутствии подразделенности «золотым стандартом» статистической генетики является традиционная смешанная полигенная модель наследования признака у

у = ju + G + е,

где р - популяционное среднее значение признака, G - вектор случайных полигенных эффектов, а е - вектор случайных остаточных эффектов. Эту модель можно расширить для исследования ассоциации, включив в нее элемент kg

у = ц + G + kg + е, где ¿-эффектмаркерного генотипа, ag-вектор маркерных генотипов. Такая модель, реализующая общий тест внутри- и межсемейной дисперсии, известна под названием модель измеренных генотипов (measured genotype, MG) (Hopper and Mathews 1982; Boerwinkle et al. 1986; George and Elston 1987). Статистическая значимость эффекта полиморфизма маркерного локуса оценивается с помощью критерия отношения правдоподобия (при использовании максимума правдоподобия, maximum likelihood, ML) или теста Вальда (при использовании ограниченного максимума правдоподобия, restricted maximum likelihood, REML).

Подход MG является мощным инструментом анализа количественных признаков в ситуациях, когда эффекты подразделенности можно игнорировать (Havill et al 2005; Lange et al. 2005). К сожалению, если анализируются большие родословные, что особенно часто бывает при исследовании генетически изолированных популяций (Newman et al. 2001; Bourgain and Genin 2005; Pardo et al. 2005) или некоторых этнических подгрупп (charlesworth et al 2005; lehman et al. 2006), метод измеренных генотипов требует большого объема вычислений. Это обусловлено необходимостью оценки параметров сложной смешанной модели для каждого тестируемого

маркера. Проверка эффекта одного полиморфизма может занять от нескольких минут до нескольких часов и, следовательно, полногеномный анализ ассоциаций с применением этого метода потребует значительных вычислительных ресурсов; реализация такого подхода с применением одного компьютера не представляется практически возможной и анализ требует применения распределенных вычислений.

Другим существенным недостатком метода измеренных генотипов является то, что в его рамках невозможен эмпирический анализ значимости с помощью пермутаций и бутстрепа: пермутации значений признака в выборке родословных нарушают не только зависимость между маркером и признаком, но и зависимости между признаками родственников, обусловленные полигенным наследованием.

Мы исследовали альтернативные подходы к картированию QTL методом анализа ассоциаций в выборках родственников и разработали семейство новых, быстрых и простых методов полногеномного анализа ассоциаций с использованием смешанной модели и регрессии, GRAMMAR (Genomewide Rapid Association using Mixed Model And Régression).

Основная идея предложенного метода заключается в том, что анализ полигенной модели выполняется отдельно, с использованием информации о родственной структуре выборки, но без учета маркерных данных. Затем оценки средовых остатков признака, полученные в рамках этой модели и скорректированные на полигенную ковариацию и фиксированные эффекты, используются как количественный признак для анализа ассоциаций с каждым из множества маркеров. Этот анализ проводится классическими методами, применяемыми для анализа неродственных особей из популяции.

Было показано, что метод GRAMMAR является достаточно быстрым для проведения полногеномного анализа. В то же время, было показано, что GRAMMAR является консервативным тестом. Поэтому далее нами был предложен метод, позволяющий контролировать ошибку первого рода за счет использования полногеномной информации. Действительно, большинство локусов в геноме не ассоциировано с признаком и для них справедлива нулевая гипотеза об отсутствии ассоциации. По этим локусам можно оценить распределение статистики при справедливости нулевой гипотезы и скорректировать пороги значимости. Далее мы предложили использовать полногеномные данные, а не родословную, для оценки матрицы родства.

Данный метод, названный нами GRAMMAR-GC, позволяет повысить мощность метода GRAMMAR практически до уровня метода

измеренных генотипов (Рис. 1), который является теоретически наиболее мощным, но в тоже время чрезвычайно вычислительно сложным и практически не применимым при полногеномном анализе ассоциаций.

Одно из преимуществ методов GRAMMAR по сравнению с другими методами, позволяющими анализировать ассоциацию в родословных, состоит в том, что средовые остатки полигенной модели, используемые при анализе, свободны от семейных корреляций. Следовательно, структура данных становится взаимозаменяемой, и к ним можно применить технику пермутаций для получения эмпирических оценок границ значимости. Это свойство метода GRAMMAR также позволяет использовать для анализа целый ряд современных методов, разработанных для выборок «неродственных особей».

Другим преимуществом метода GRAMMAR по сравнению с существующими методами, позволяющими анализировать ассоциацию в родословных, является то, что GRAMMAR очень просто модифицировать для тестирования целого ряда моделей, например, включить дополнительные независимые переменные, учитывающие взаимодействие с полом и факторами внешней среды, взаимодействие между генами, эффект родительского происхождения аллелей и так далее. Недавно нами был реализован вариант GRAMMAR, позволяющий исследовать эффект родительского происхождения аллелей в полногеномном анализе ассоциаций (belonogova et al. 2009).

Нами также была предложена реализация метода измеренных генотипов с помощью скор-теста, не требующего оценки дисперсии при альтернативном значении тестируемого параметра, которая может стать мощной альтернативой метода GRAMMAR. Подобная реализация была описана в независимой работе Чена и Абекасиса (Chen and Abecasis 2007); эта модель была расширена нами в пакете ProbABEL (Aulchenko and Struchalin 2010).

Следует отметить, что хотя новые методы были разработаны нами для анализа количественных признаков, они также применимы для анализа бинарных признаков. При этом получаемые оценки уровня значимости ассоциаций хорошо совпадают с таковыми, полученными при использовании более корректных (и вычислительно значительно более сложных) методов, разработанных специально для анализа бинарных признаков (личное сообщение, N. Pirastu).

Таким образом, нами был сформулирован и реализован ряд новых методов, позволяющих проводить полногеномный анализ ассоциаций

ЯР

Родословные ERF

ИПС

8 S

S

Рис. 1. Мощность методов измеренных генотипов, GRAMMAR-GC (перекрывающиеся верхние линии), GRAMMAR (серая линия) и GC (нижняя пунктирная линия) при разных значениях наследуемости и структурах родословных.

Ряды отличаются значениями наследуемости (от 30% до 80%), а колонки -структурой родословных: ядерные родословные (ЯР), родословная из молодой генетически изолированной популяции из Нидерландов (ERF) и идеализированная популяция свиней (ИПС). Ось Y каждой панели указывает мощность, тогда как ось X - долю дисперсии признака, объясненной исследуемым QTL. Кружки соответствуют эмпирическим оценкам мощности, посчитанным при а - 0.0]. Оценки мощности основаны на 1000 повторах для ЯР и ИПС и на 100 повторах для ERF.

признаков в выборках родственников. Эти методы не требуют априорного знания степени родства между исследуемыми особями (родословной), так как генетическое родство между особями

оценивается с помощью геномных данных; эти методы позволяют проводить быстрые вычисления. В то же время мощность новых методов практически не уступает мощности метода измеренных генотипов, который является «золотым стандартом» для методов исследования ассоциаций по выборкам родственников.

Разработанные методы, а также большой набор существующих методов были реализованы в пакете прикладных программ для анализа полногеномных данных, GenABEL (Aulchenko et al. 2007b). Пакет распространяется свободно и доступен по адресу http://mga.bionet.nsc.ru/~yurii/ABEL.

Полногеномное исследование количественных признаков человека

Мы использовали разработанные методы и программное обеспечение для идентификации локусов, генетическая вариация которых ассоциирована с такими признаками, как уровень липидов в крови и рост человека. Кроме того, нами был исследован вопрос прогностической мощности геномного профилирования для предсказания исследованных признаков.

Генетические и физиологические основы метаболизма липидов хорошо изучены как на модельных объектах, так и на примере моногенных менделевских заболеваний. Не будет преувеличением сказать, что уровень липидов в крови человека - один из наиболее хорошо генетически изученных сложных количественных признаков человека (friedlander et al. 1997; pllla et al. 2006). Более того, в отличие от большинства сложных количественных признаков человека, для уровней липидов известен ряд генов, вариация которых объясняет существенную долю дисперсии этих признаков в популяции (например, аллели е2/3/4 гена А РОЕ (slng and Davignon 1985)). Таким образом, в методологическом смысле, изучение уровней липидов в крови человека предоставляет прекрасную возможность для тестирования метода полногеномного анализа ассоциаций: ожидается, что метод должен подтвердить ряд ранее известных локусов (таким образом, имеется «позитивный контроль»).

Кроме того, идентификация геномных полиморфизмов, ассоциированных с уровнем липидов, представляет собой практическую ценность. Изменение уровней липидов сыворотки крови относительно нормы является одним из первостепенных факторов риска сердечнососудистых заболеваний (Kannel et al. 1961; Miller and Miller 1975; pllla et al. 2006). Теоретически, на основании генетического профиля риска возможна ранняя (до появления

клинических симптомов) идентификация людей с повышенным риском гиперхолестеринемии. Это знание может быть критически важным для предотвращения как гиперхолестеринемии, так и, в конечном счете, сопутствующих сердечнососудистых заболеваний. Действительно, уровень холестерина в крови как правило может быть модифицирован с помощью изменения стиля жизни и питания, а также с помощью различных лекарственных препаратов.

Нами было проведено полногеномное исследование ассоциаций уровней липидов в сыворотке крови человека. Мы использовали данные из 16 когорт, собранных по всей Европе; общий объем выборки составлял от 17 797 до 22 562 человек; полногеномное генотипирование каждого образца проводилось с использованием более 300 тысяч

Результаты полногеномного анализа ассоциаций уровня общего холестерина - признака, не исследовавшегося ранее с помощью этого метода - представлены на Рис. 2. Одиннадцать локусов показали ассоциацию с полногеномным уровнем значимости /5-уа1ие < 5 * 10"8. Для трех из этих локусов (РАИБ1/2/3, АВС05/8, ТМЕМ57) вовлеченность в контроль уровней липидов в популяциях человека была ранее не известна. Для остальных локусов ассоциация с уровнями других липидов (холестерина липопротеидов низкой плотности или триглицеридов) была ранее уже показана.

В целом, мы идентифицировали шесть новых локусов (^£>57/2/3, АВСС5/8, ТМЕМ57, МАИО-РОШ!, СТСР-РШТ8, ОМАН 11), значимо ассоциированных с уровнями липидов, и подтвердили 16 локусов, ассоциация которых с метаболизмом липидов была показана ранее в полногеномных исследованиях ассоциаций (КАТнишБАМ et а\. 2008а; KATШRESAN е1а1. 2008Ь; КООМЕЯ et ей. 2008; \vlller е? а1. 2008). Ранее мы предположили, что исследование уровня липидов в крови человека может представлять также методологический интерес за счет того, что для некоторых липидов известны локусы, объясняющие большую долю дисперсии и представляющие, таким образом, «позитивный контроль». Наше исследование подтвердило это предположение: например, вариация в локусе ЮЬК была высоко значимо (р-уа1ие = 10"23) ассоциирована с уровнем общего холестерина (Рис. 2), а вариация в локусе СЕТР объясняла ~2% дисперсии уровня холестерина липопротеидов высокой плотности и была детектирована с р-\а1ие = 10"93.

Рост тела является классическим примером полигенно наследуемого признака человека. Многочисленные исследования показали, что доля дисперсии роста, объясняемая семейными факторами, составляет 80-90%. Сходство роста родственников в

Я ч

о

о-)

о., о

АРШ

МУВРЩ ♦

♦ АВОЗЗ /

♦ /

* /

ОСГ^ЩЮСР? ♦

1.01.1?

СЕАСАМ16 ТОММ40

«САМ

♦ гмЬоз

Рис. 2. Результаты полногеномного анализа ассоциаций уровня общего холестерина в крови в 16 популяционных когортах.

основном обусловлено генетическими факторами, поскольку эффекты негенетических причин сходства сибсов пренебрежимо малы (VissCHER et al. 2006). В то же время, как до, так и после недавно проведенных полногеномных исследований ассоциаций (GudbjartssON et al. 2008; Lettre et al. 2008; Weedon et al. 2008) ни одного распространенного аллеля, объясняющего существенную долю дисперсии роста в популяции человека, идентифицировано не было (локус, наиболее сильно ассоциированный с нормальной вариацией роста — HMGÁ2 -объясняет только ~0.3% дисперсии).

Высокая наследуемость роста может быть объяснена как присутствием большого числа распространенных аллелей малого эффекта, так и присутствием большого числа редких аллелей с сильным эффектом на фенотип. При этом как распространенные, так и редкие аллели могут встречаться в рамках одного локуса. Например, такова аллельная архитектура локуса LDLR, принимающего участие в контроле уровня холестерина липопротеидов низкой плотности. Для идентификации распространенных аллелей малого эффекта наиболее эффективной стратегией является полногеномный анализ ассоциаций с использованием больших выборок. Однако этот метод неприменим для идентификации локусов, в которых встречаются редкие аллели, даже если таковые обладают большим эффектом на фенотип: распространенные полиморфизмы, используемые в ДНК-чипах, находятся в статистически слабой ассоциации с редкими полиморфизмами. Для идентификации локусов, содержащих редкие аллели с большим эффектом на фенотип, может применяться классический метод анализа сцепления. К сожалению, анализ сцепления позволяет идентифицировать только большие геномные регионы, содержащие как правило десятки или даже сотни генов. Однако если аллельная архитектура исследуемого локуса включает как редкие, так и распространенные аллели, можно ожидать, что анализ ассоциаций в регионе сцепления позволит провести точное картирование исследуемого локуса. При этом, в отличие от полногеномного анализа, можно применять более слабые критерии значимости, что позволит идентифицировать локусы, которые невозможно обнаружить только с помощью полногеномного анализа ассоциаций.

Таким образом, анализ сцепления с последующим анализом ассоциаций является стратегией, которая может позволить идентифицировать локусы со смешанной аллельной архитектурой. Мы применили эту стратегию для исследования генетики роста человека. Исследование было проведено в рамках консорциума по генетике генетически изолированных популяций (EUROSPAN). Анализ

сцепления был проведен на материале из четырех популяций. LOD score пяти хромосомных районов достиг границы возможного сцепления. Для трех из этих районов (хромосомы 2, 7 и 17) самое высокое значение LOD было получено при анализе объединенной выборки. В остальных двух районах сцепления (хромосомы 9 и 16) общее значение LOD было высоким благодаря сильному эффекту в одной из популяций при практически нулевом значении LOD в других популяциях. Следующим шагом было исследование ассоциаций между SNP и признаком в районах сцепления. Пять идентифицированных нами районов сцепления были большими, включая от 887 до 3176 SNP. В сумме было исследовано 9852 маркеров. Только в одном районе (хромосома 7) была найдена статистически значимая ассоциация с ростом при мета-анализе. В этом районе два соседних SNP (rs849140 и rsl635852) были ассоциированы с ростом (р < 0.05 после коррекции Бонферрони на 9852 протестированных SNP); более сильная ассоциация наблюдалась при анализе роста мужчин (Рис. 3). Оба SNP локализованы в гене JAZF1. Последующая проверка rs849140 с привлечением дополнительного материала показала значимость ассоциации этого SNP с ростом тела.

Хотя окончательное доказательство того, что локус JAZF1 является примером смешанной аллельной архитектуры, может быть предоставлено только последующими исследованиями, общую стратегию поиска таких локусов, основанную на анализе ассоциаций в регионах сцепления, можно рассматривать как многообещающую. Следует отметить, что эта стратегия представляет собой вариант классической стратегии позиционного клонирования, незаслуженно забытой в последнее время.

Биологически чрезвычайно интересным представляется тот факт, что локус JAZF1 является примером плейотропного локуса - SNP rs849140, ассоциированный с ростом в нашем исследовании, также ассоциирован с диабетом второго типа (zegginl et al. 2008) и системной красной волчанкой (Gateva et al. 2009). Другие SNP этого же локуса ассоциированы с раком простаты (thomas et al. 2008). Как для уровней липидов, так и для роста человека, нами был исследован потенциал использования геномных данных для предсказания этих признаков. Было показано, что геномные профили объясняют 4-6% дисперсии роста и 1-7% дисперсии липидов в разных популяциях. Также показано, что геномный профиль холестерина является статистически значимым, независимым от уровня циркулирующего холестерина, предиктором дислипидемии и толщины комплекса интима-медиа стенки сосуда. Кроме того, мы показали, что на современном этапе простое предсказание на основе фенотипов родственников (метод Гальтона)

♦ rs849140

rsl635852

JAZF1

1 •»"/ . И ♦ . < ♦♦ - * «t» *_f ♦ ♦ ♦ •_» . \__

27600000 27800000 28000000 28200000

Позиция на хромосоме 7 (пн)

Рис. 3. Ассоциация роста мужчин с БИР, расположенными в районе гена М2Р1 хромосомы 7.

Ось У: -1о§ю (номинальное р-уа1ае); ось X: позиция (пн) на хромосоме 7.

может значительно превосходить по качеству сложные предсказания на основе геномных данных. Так, для роста тела гальтоновское среднеродительское предсказание было на порядок лучше геномного предсказания. Дополнительное включение геномного профиля в гальтоновскую модель улучшало модель не значительно (Таб. 3).

Мы рассмотрели вопрос, будет ли гальтоновское средне-родительское предсказание значительно лучше геномного предсказания для других фенотипов. Доля фенотипического разнообразия потомков, которое объясняется среднеродительским фенотипическим значением, выражается формулой (h2)2/2, где h2 - наследуемость признака. Мы показали, что 11 SNP объясняют 3-5% дисперсии общего холестерина; сходные оценки были получены для липопротеидов высокой и низкой плотности и триглицеридов. Эти признаки обычно проявляют около 30% наследуемости. Следовательно, гальтоновское предсказание не может объяснить более 5% дисперсии признака. Таким образом, для уровней липидов предсказание на основе геномных данных уже работает столь же хорошо (или столь же плохо) как гальтоновское. Однако геномные профили, в отличие от гальтоновского, имеют потенциал к совершенствованию по мере обнаружения новых локусов, влияющих на фенотип.

Таб. 3. Доля дисперсии, объясненной различными профилями.

Доля

объяснен-

Профиль Популяция N ной дисперсии, % Д5)95, см*

Профиль на основе Роттердамское 5748 3.8 4.95

54 геномных локусов исследование

Гипотетический Роттердамское 5748 80.0 23.4 ±0.01

профиль исследование

Среднеродительский ERF 550 40.1 17.68

профиль Гальтона

Среднеродительский ERF 257 44.9 21.18

профиль Гальтона

Профиль Гальтона + ERF 257 46.2 21.28

54 локуса

* Д5,95 - разница между средними значениями роста в верхних и нижних 5% распределения профиля. Два последних профиля тестировались на выборке участников ERF с известными фенотипами родителей (N = 257).

Генетическая архитектура признака является важным фактором, который следует рассматривать при оценке потенциала прогностического тестирования (janssens et al. 2006). Например, популяционное разнообразие цвета радужной оболочки глаза в значительной степени объясняется генетическим разнообразием единственного локуса (HERC2), и высокая точность предсказания достигается при использовании генотипов всего трех SNP (Kayser et al. 2008а). Однако для таких признаков как артериальное давление крбви известно буквально несколько локусов, объясняющих лишь небольшую долю дисперсии; для таких признаков перспективы применения геномных профилей на данном этапе развития генетики значительно хуже.

Нами, как и другими исследователями, было показано, что при использовании строгих критериев полногеномной значимости (поправка Бонферрони или использование фиксированного граничного значения р < 5 х 10'8 для популяций европейского происхождения) результаты полногеномного анализа ассоциаций являются в целом хорошо воспроизводимыми при условии достаточного объема репликационной

выборки. Например, из шести новых липидных локусов, описанных нами, пять было подтверждено в последующих независимых исследованиях (Kathiresan et al. 2009; manolio 2009; Sabatti et al. 2009). При проверке SNP, ассоциация которых с ростом считается установленной (gudbjartsson et al 2008; lettre et al. 2008; weedon et al. 2008), на выборке Роттердамского исследования 34 из 54 SNP были значимо ассоциированы при а = 0.05, и только для двух SNP направление (не значимой) ассоциации с ростом не соответствовало описанному в первоначальных работах. При этом следует отметить, что при исследовании роста выборка Роттердамского исследования не являлась достаточно мощной для подтверждения всех ассоциаций, и, таким образом, отсутствие значимой ассоциации для некоторых локусов (с малым эффектом) не могло считаться доказательством отсутствия эффекта этих локусов. Сходным образом, 18 из 33-х ранее идентифицированных SNP, которые могли быть протестированы на ассоциацию с ростом в выборке EUROSPAN, показали ассоциацию с p-value < 5% - результат, показывающий действительную насыщенность этого набора SNP реальными сигналами ассоциаций.

Таким образом, на основании наших исследований можно сделать заключение, что полногеномный анализ ассоциаций является мощным и надежным методом идентификации локусов, вариация которых ассоциирована со значениями сложных признаков; результаты, полученные с использованием метода полногеномного анализа ассоциаций, в целом хорошо воспроизводимы. На основании знания этих локусов возможно конструирование генетических профилей риска, которые (уже или в перспективе) могут предсказывать долговременный риск развития заболевания.

Заключение

Основной целью исследований, описанных в данной работе, являлась разработка методов полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций, апробация этих методов на реальных данных и идентификация новых локусов, контролирующих сложные признаки человека.

В момент начала работы по этой теме (2003 год), за исключением моногенных форм, объясняющих ничтожную долю случаев, было известно всего несколько локусов, генетическая вариация которых была достоверно связана с разнообразием сложных признаков человека, в частности, с риском распространенных болезней. За прошедшее время

эта ситуация изменилась кардинальным образом - в настоящий момент известны более тысячи локусов, достоверно ассоциированных с сотнями признаков человека (см. неполный каталог результатов полногеномных исследований ассоциаций на сайтах http './/www, genome, gov/ pwastudies/, a также «GWAS Integrator»,

http://hugenavigator.net/HuGENavigator/gWAHitStartPage.do). Эти успехи в большой степени обусловлены применением нового метода -полногеномного анализа ассоциаций.

Автору данной диссертации посчастливилось принимать участие в работах, приведших к современному буму полногеномных исследований ассоциаций. В настоящее время он является (со)автором работ, в которых был проведен полногеномный анализ ассоциаций 32 признаков; в результате было идентифицировано 238 значимых ассоциаций в 148-и различных регионах генома (по данным сайта «GWAS Integrator», запрос произведен 27 апреля 2010 года). Были исследованы такие сложные признаки человека, как ожирение (johansson et al. 2009b) и антропометрические характеристики (heard-costa et al. 2009; Lindgren et al. 2009), остеопороз (richards et al. 2009; rivadeneira et al. 2009), рассеянный склероз (Aulchenko et al. 2008; Hoppenbrouwers et al. 2009), уровни липидов в крови (Aulchenko et al. 2009a; Hicks et al. 2009), уровни различных метаболитов (K.olz et al. 2009; Pattaro et al. 2009; prokopenko et al. 2009) и пептидов (Kollerits et al. 2009), рост (Estrada et al. 2009; Johansson et al. 2009a), функция почки (Kottgen et al. 2009), артериальное давление крови (levy et al. 2009), инсульт (Ikram et al. 2009), курение (vink et al. 2009), структура и функционирование сердца (Vasan et al. 2009), цвет радужной оболочки глаза (Kayser et al. 2008b) и так далее.

Было показано, что в молодых генетически изолированных популяциях, представленных в Европе в большом количестве, частота редких (начальная частота <1%) аллелей может быть как резко (в разы) повышена, так и резко (вплоть до полного исчезновения) снижена, что приводит к повышению мощности генетического анализа в таких популяциях. Относительно распространенных аллелей, нами было показано, что генетические варианты с начальной частотой 5% или выше будут присутствовать как в молодых генетических изолятах, так и в открытых популяциях. Следовательно, результаты геномного сканирования, проведенного с использованием ДНК-чипов в молодых генетически изолированных популяциях, могут быть обобщены на открытую популяцию, и наоборот. Далее, нами было показано, что в изолированных популяциях, недавно переживших период быстрого роста и берущих начало от небольшой популяции основателей,

неравновесие по сцеплению распространяется на значительно большие дистанции по сравнению с большими открытыми популяциями; в частности, для хромосомы 22 карта неравновесия по сцеплению для генетических изолятов на -20-45% короче, чем для открытых популяций, что приводит к аналогичному повышению ожидаемой мощности полногеномного анализа ассоциаций. Таким образом, на основании наших исследований можно сделать заключение, что молодые генетически изолированные популяции представляют ценный ресурс для картирования локусов сложных признаков методом полногеномного анализа ассоциаций.

Далее, нами был разработан и реализован ряд новых, быстрых и простых методов, позволяющих проводить полногеномный анализ ассоциаций признаков в выборках родственников. Разработанные нами методы не требуют априорного знания степени родства между исследуемыми особями (родословной), так как для оценки генетического родства используются геномные данные. Мощность новых методов практически не уступает мощности «золотого стандарта» для методов исследования ассоциаций по выборкам родственников (классический метод измеренных генотипов). Разработанные методы были реализованы в пакете прикладных программ для анализа полногеномных данных, ОепАВЕЬ.

На основании результатов, полученных нами при исследовании молодых изолятов, было решено проводить исследование генетики сложных признаков человека в генетически изолированных популяциях Европы (например, консорциум ЕШШЗРАЫ). Полногеномный анализ ассоциаций в этих эмпирических исследованиях проводился с использованием разработанных нами методов. В настоящее время возможность использования генетически изолированных популяций для идентификации локусов сложных признаков с использованием метода полногеномного анализа ассоциаций не вызывает сомнения, а методы, описанные и реализованные нами, вошли в стандартный арсенал полногеномных исследований ассоциаций.

Следует отдельно отметить, что применение методов, разработанных нами для анализа генетически изолированных популяций человека, не ограничено только этими популяциями. В первую очередь, наши методы применимы для анализа любых семейных выборок человека. Принимая во внимание то, что при субтотальном (>10%) обследовании любой популяции в выборке обязательно начинают встречаться родственные особи, и что многие исследования в настоящий момент выходят на субтотальный уровень, роль разработанных нами методов в дальнейшем будет повышаться. Более того,

сконструированные нами методы могут применяться при полногеномном анализе признаков сельскохозяйственных и домашних животных. В частности, нам известно, что в настоящий момент разработанные нами методы и пакеты программ применяются при исследовании генетики крупного рогатого скота и собак.

В целом, результаты работ по созданию новых методов полногеномного анализа ассоциаций следует признать одними из наиболее успешных из представленных в данной диссертации. Так, число пользователей, которые обращались с вопросами к разработчикам нашего пакета полногеномного анализа ассоциаций GenABEL составляет более двухсот пятидесяти человек, число опубликованных работ, использовавших пакет, составляет более 50; наш пакет был упомянут в статье New York Times, посвященной вычислительной среде R.

Нами были идентифицированы новые локусы, генетическая вариация которых ассоциирована с изменением уровня липидов в крови и ростом тела человека. Одним из наиболее интересных биологических результатов представляется то, что уровень липидов в крови человека зачастую контролируется вариацией в генах, которые представлены гомологичными кластерами (FADS1/2/3, ABCG5/8). Также интересен факт, что SNP rs849140, находящийся в локусе JAZF1 и ассоциированный с ростом в нашем исследовании, также показал ассоциацию с диабетом второго типа (zeggini et al. 2008) и системной красной волчанкой (Gateva et al. 2009). Другие SNP этого же локуса ассоциированы с раком простаты (thomas et al. 2008).

Методологически, нами, как и другими исследователями, было показано, что полногеномный анализ ассоциаций является мощным методом идентификации распространенных аллелей, контролирующих сложные признаки. Результаты, полученные с использованием метода полногеномного анализа ассоциаций, в целом хорошо воспроизводимы при использовании строгих критериев полногеномной значимости и адекватных объемов репликационных выборок. Эти результаты оправдывают дальнейшее широкое применение метода полногеномного анализа ассоциаций - метода, который за последние несколько лет стал de-facto стандартом идентификации локусов сложных признаков человека.

Нами также были описаны методологические основы генетического предсказания. За несколько последних лет методология, предложенная Janssens et al. (janssens et al. 2004) и в дальнейшем развитая нами (janssens et al. 2006) - оценка предсказательной мощности генетического профиля площадью под кривой, показывающей

соотношение между ложно-положительными и истинно-положительными результатами теста - стала стандартной, и используется во многих работах, представляющих результаты полногеномного анализа. Мы показали, что знание локусов, идентифицированных в ходе полногеномных анализов ассоциаций, позволяет конструировать генетические профили риска, которые (уже или в перспективе) могут предсказывать значение количественных признаков и долговременный риск развития заболевания. С ростом числа известных локусов геномное профилирование может стать стандартной процедурой при предсказании некоторых признаков. Однако потенциал этого метода в значительной степени зависит от генетической архитектуры признака.

Работы, представленные в данной диссертации, получили -широкий отклик в научной среде: так, работы, представленные в главе 2 диссертации (aulchenko et al. 2003; aulchenko et al. 2004; pardo et al. 2005; Service et al. 2006) были процитированы 164 раза, работы, представленные в главе 3 (Amin et al. 2007; aulchenko et al. 2007a; aulchenko et al. 2007b) - 72 раза, а работы, представленные в главе 4 (Janssens étal. 2006; Kayser et al. 2008a; Aulchenko et al. 2009a; aulchenko et al. 2009b; johansson et al. 2009a) - 165 раз (ISI Web of Knowledge, запрос произведен 27 апреля 2010). В сумме работы автора данной диссертации (в том числе работы, не включенные в данную диссертацию), цитируются более тысячи раз (из них более 400 цитирований за 2009 год).

Следует отметить, что хотя идентификация локусов сложных признаков с помощью метода полногеномного анализа ассоциаций и является важным этапом генетического анализа, этот метод зачастую не дает окончательного ответа на вопрос, продукт какого гена вовлечен в контроль признака. Для ответа на этот несомненно биологически важный вопрос необходимо проведение функциональных, молекулярно-генетических и физиологических исследований. Однако рассмотрение вопроса функциональности идентифицированных полиморфизмов находится за рамками поставленной нами цели.

Разрешающая способность метода полногеномного анализа ассоциаций ограничена распространенными аллелями (с частотой редкого аллеля >5%). В то же время, в контроле многих признаков, судя по всему, велика роль множественных редких аллелей (гипотеза «распространенная болезнь - множество редких аллелей», CDMRV). Такие аллели можно детектировать с помощью современных технологий, которые уже позволяют ресеквенировать индивидуальные геномы; цена таких исследований стремительно снижается. Однако

генетический анализ редких аллелей представляет собой большую методическую проблему, так как статистическая мощность оценки эффекта редкого фактора чрезвычайно мала. Чтобы успешно решить эту проблему и определить роль редких аллелей в детерминации сложных признаков, потребуется создать принципиально новые методы анализа, которые, скорее всего, будут лишь в малой степени сходны с методами классической эпидемиологии.

Выводы

1. Исследован эффект дрейфа генов в молодых генетически изолированных популяциях человека. Показано, что в таких популяциях эффект дрейфа генов мал для распространенных (частота >5%) аллелей и выражен для аллелей, имеющих начальную частоту < 1 %.

2. Проведен сравнительный анализ структуры неравновесия по сцеплению в различных популяциях человека. Показано, что длины карт неравновесия по сцеплению для молодых генетически изолированных популяций на ~30% меньше, чем для открытых популяций человека.

3. Разработаны новые методы для проведения полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных. Эти методы являются статистически мощными и вычислительно эффективными.

4. Разработано новое программное обеспечение для проведения полногеномного анализа ассоциаций. Разработанный пакет программ СепАВЕЬ реализует большое число современных методов полногеномного анализа ассоциаций и позволяет анализировать миллионы тонированных в тысячах образцов, на персональных компьютерах.

5. С использованием разработанных методов и программ проведен полногеномный анализ ассоциаций уровней липидов в крови человека. Впервые в мире, такой анализ проведен на популяционных выборках. Также впервые проведен полногеномный анализ ассоциаций уровней общего холестерина. Идентифицированы шесть новых локусов, контролирующих уровни липидов.

6. Проведен полногеномный анализ сцепления с последующим анализом генетических ассоциаций с ростом человека. Идентифицирован новый локус, JAZF1, контролирующий рост тела, и имеющий плейотропное влияние на ряд других признаков, в том числе патологических.

7. Оценен потенциал метода предсказания значения сложного признака на основе генотипических данных и проведено практическое исследование возможности использования геномных данных для предсказания таких признаков человека, как роста тела, уровень липидов в крови и риск дислипидемии. Показано, что геномные профили объясняют 4-6% дисперсии роста и 1-7% дисперсии липидов. Также показано, что геномный профиль холестерина является статистически значимым, независимым от уровня циркулирующего холестерина, предиктором толщины интима-медиа и дислипидемии.

Список публикаций по теме диссертации

1. АКСЕНОВИЧ, Т. И., Г. Р. СВШЦЕВ А и Ю. С. АУЛЬЧЕНКО, 2000 Картирование генов, детерминирующих количественные признаки животных: метод разложения дисперсий. Генетика 36: 986-993.

2. АУЛЬЧЕНКО, Ю. С. и Т. И. АКСЕНОВИЧ, 2006 Методологические подходы и стратегии картирования генов, контролирующих комплексные признаки человека. Вестник ВОГиС 10: 189-202.

3. ТИМОФЕЕВА, О. А., М. Л. ФИЛИПЕНКО, Ю. С., АУЛЬЧЕНКО, Е. А. ВОРОНИНА, А. Б., МАСЛЕННИКОВ и Н. П. МЕРТВЕЦОВ, 1999 Анализ распределения аллелей тетрануклеотидного повтора в интроне 6 гена липопротеннлипазы среди населения г. Новосибирска. Генетика 35: 862-864.

4. AMIN, N., С. М. VAN DUIJN and Y. S. AULCHENKO, 2007 A genomic background based method for association analysis in related individuals. PLoS ONE 2: el274.

5. AULCHENKO, Y. S., Т. I. AXENOVICH, I. MACKAY and С. M. VAN DUIJN, 2003 miLD and booLD programs for calculation and analysis of corrected linkage disequilibrium. Ann Hum Genet 67: 372-375.

6. AULCHENKO, Y. S., D. J. DE KONING and C. HALEY, 2007a Genomewide rapid association using mixed model and regression: a fast and simple method for genomewide pedigree-based quantitative trait loci association analysis. Genetics 177: 577-585.

7. AULCHENKO, Y. S„ P. HEUTINK, 1. MACKAY, A. M. BERTOLI-AVELLA, J. PULLEN et al., 2004 Linkage disequilibrium in young genetically isolated Dutch population. Eur J Hum Genet 12: 527-534.

8. AULCHENKO, Y. S., I. A. HOPPENBROUWERS, S. V. RAMAGOPALAN, L. BROER, N. JAFARI et al., 2008 Genetic variation in the KIF1B locus influences susceptibility to multiple sclerosis. Nat Genet 40:1402-1403.

9. AULCHENKO, Y. S., S. RIPATTI, I. LINDQV1ST, D. BOOMSMA, I. M. HEID et al., 2009a Loci influencing lipid levels and coronary heart disease risk in 16 European population cohorts. Nat Genet 41: 47-55.

10. AULCHENKO, Y. S., S. RIPKE, A. ISAACS and C. M. VAN DU1JN, 2007b GenABEL: an R library for genome-wide association analysis. Bioinformatics 23: 1294-1296.

11. AULCHENKO, Y. S., M. V. STRUCHALIN, N. M. BELONOGOVA, T. I. AXENOVICH, M. N. WEEDON et al., 2009b Predicting human height by Victorian and genomic methods. Eur J Hum Genet 17:1070-1075.

12. AXENOVICH, T. I., I. V. ZORKOLTSEVA, N. M. BELONOGOVA, M. V. STRUCHALIN, A. V. KIRICHENKO et al., 2009 Linkage analysis of adult height in a large pedigree from a Dutch genetically isolated population. Hum Genet 126:457-471.

13. BELONOGOVA, N. M„ T. I. AXENOVICH and Y. S. AULCHENKO, 2009 A powerful genome-wide feasible approach to detect parent-of-origin effects in studies of quantitative traits. Eur J Hum Genet.

14. ESTRADA, K., M. KRAWCZAK, S. SCHREIBER, K. VAN DUIJN, L. STOLK et al., 2009 A genome-wide association study of northwestern Europeans involves the C-type natriuretic peptide signaling pathway in the etiology of human height variation. HumMol Genet 18: 3516-3524.

15. HEARD-COSTA, N. L„ M. C. ZILLIKENS, K. L. MONDA, A. JOHANSSON, T. B. HARRIS et al., 2009 NRXN3 is a novel locus for waist circumference: a genome-wide association study from the CHARGE Consortium. PLoS Genet 5: el000539.

16. HICKS, A. A., P. P. PRAMSTALLER, A. JOHANSSON, V. VITART, I. RUDAN et al,, 2009 Genetic determinants of circulating sphingolipid concentrations in European populations. PLoS Genet 5: el000672.

17. HOPPENBROUWERS, I. A., Y. S. AULCHENKO, A. C. JANSSENS, S. V. RAMAGOPALAN, L. BROER et al., 2009 Replication of CD58 and CLEC16A as genome-wide significant risk genes for multiple sclerosis. J Hum Genet 54: 676-680.

18. IKRAM, M. A., S. SESHADRI, J. C. BIS, M. FORNAGE, A. L. DESTEFANO et al., 2009 Genomewide association studies of stroke. N Engl J Med 360:1718-1728.

19. JANSSENS, A. C„ Y. S. AULCHENKO, S. ELEFANTE, G. J. BORSBOOM, E. W. STEYERBERG et al., 2006 Predictive testing for complex diseases using multiple genes: fact or fiction? Genet Med 8: 395-400.

20. JOHANSSON, A., F. MARRONI, C. HAYWARD, C. S. FRANKLIN, A. V. KIRICHENKO et al., 2009a Common variants in the JAZF1 gene associated with height identified by linkage and genome-wide association analysis. Hum Mol Genet 18: 373-380.

21. JOHANSSON, A., F. MARRONI, C. HAYWARD, C. S. FRANKLIN, A. V. KIRICHENKO et al., 2009b Linkage and Genome-wide Association Analysis of Obesity-related Phenotypes: Association of Weight With the MGAT1 Gene. Obesity (Silver Spring).

22. KAYSER, M., F. LIU, A. C. JANSSENS, F. RIVADENEIRA, O. LAO et al., 2008 Three genome-wide association studies and a linkage analysis identify HERC2 as a human iris color gene. Am J Hum Genet 82: 411-423.

23. KOLLERITS, B, S. COASSIN, N. D. BECKMANN, A. TEUMER, S. KIECHL et al., 2009 Genetic evidence for a role of adiponutrin in the metabolism of apolipoprotein B-containing lipoproteins. Hum Mol Genet 18: 4669-4676.

24. KOLZ, M., T. JOHNSON, S. SANNA, A. TEUMER, V. VITART et al., 2009 Metaanalysis of 28,141 individuals identifies common variants within five new loci that influence uric acid concentrations. PLoS Genet 5: el000504.

25. KOTTGEN, A., N. L. GLAZER, A. DEHGHAN, S. J. HWANG, R. KATZ et al., 2009 Multiple loci associated with indices of renal function and chronic kidney disease. Nat Genet.

26. LAM, A. C., M. SCHOUTEN, Y. S. AULCHENKO, C. S. HALEY and D. J. DE KONING, 2007 Rapid and robust association mapping of expression quantitative trait loci. BMC Proc 1 Suppl 1: SI44.

27. LEVY, D„ G. B. EHRET, K. RICE, G. C. VERWOERT, L. J. LAUNER et al„ 2009 Genome-wide association study of blood pressure and hypertension. Nat Genet.

28. LINDGREN, C. M., I. M. HEID, J. C. RANDALL, C. LAMINA, V. STEINTHORSDOTTIR et al., 2009 Genome-wide association scan meta-analysis identifies three Loci influencing adiposity and fat distribution. PLoS Genet 5: el000508. !

29. PARDO, L. M„ I. MACKAY, B. OOSTRA, C. M. VAN DUIJN and Y. S. AULCHENKO, 2005 The effect of genetic drift in a young genetically isolated population. Ann Hum Genet 69: 288-295.

30. PATTARO, C„ Y. S. AULCHENKO, A. ISAACS, V. VITART, C. HAYWARD et al., 2009 Genome-wide linkage analysis of serum creatinine in three isolated European populations. Kidney Int 76: 297-306.

31. PROKOPENKO, I., C. LANGENBERG, J. C. FLOREZ, R. SAXENA, N. SORANZO et al., 2009 Variants in MTNR1B influence fasting glucose levels. Nat Genet 41: 7781.

32. RICHARDS, J. B„ F. K. KAWOURA, F. RIVADENEIRA, U. STYRKARSDOTTIR, K. ESTRADA et al., 2009 Collaborative meta-analysis: associations of 150 candidate genes with osteoporosis and osteoporotic fracture. Ann Intern Med 151: 528-537.

33. RIVADENEIRA, F., U. STYRKARSDOTTIR, K. ESTRADA, B. V. HALLDORSSON, Y. H. HSU et al., 2009 Twenty bone-mineral-density loci identified by large-scale meta-analysis of genome-wide association studies. Nat Genet 41:11991206.

34. SERVICE, S„ J. DEYOUNG, M. KARAYIORGOU, J. L. ROOS, H. PRETORIOUS et al., 2006 Magnitude and distribution of linkage disequilibrium in population isolates and implications for genome-wide association studies. Nat Genet 38: 556-560.

35. VAN DIEMEN, C. C., D. S. POSTMA, Y. S. AULCHENKO, P. J. SNIJDERS, B. A. OOSTRA et al., 2009 Novel strategy to identify genetic risk factors for COPD severity: a genetic isolate. Eur Respir J.

36. VASAN, R. S„ N. L. GLAZER, J. F. FELIX, W. LIEB, P. S. WILD et al., 2009 Genetic variants associated with cardiac structure and function: a meta-analysis and replication of genome-wide association data. JAMA 302: 168-178.

37. VINK, J. M., A. B. SMIT, E. J. DE GEUS, P. SULLIVAN, G. WILLEMSEN et al., 2009 Genome-wide association study of smoking initiation and current smoking. Am J Hum Genet 84: 367-379.

Подписано к печати 24.06.2010 г. Формат бумаги 60 х 90 1/16, печ. л. 2, уч. изд. л.1,4 Тираж 110 Заказ № 63

Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, пр. акад. Лаврентьева, 10

Содержание диссертации, доктора биологических наук, Аульченко, Юрий Сергеевич

Список используемых терминов, сокращений и обозначений.

Общая характеристика работы.

1 Общее введение.

1.1 Методы классической эпидемиологии.

Основные способы формирования выборки для анализа генетических ассоциаций.

Оценка эффекта фактора риска.

Включение дополнительных переменных в анализ.

Мета-анализ.

1.2 Специфические методы, применяемые при анализе генетических ассоциаций

Контроль качества генетических данных и равновесие Харди—Вайнберга.

Специфические методы анализа ассоциаций с одним локусом.

Наведенная ассоциация и генетическая гетерогенность выборки.

1.3 Метод полногеномного анализа ассоциаций: краткий исторический обзор.

2 Аллельный спектр и структура неравновесия по сцеплению в популяциях человека.

2.1 Введение.

2.2 Эффекты дрейфа генов в генетически изолированной популяции человека.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

2.3 Характеризация неравновесия по сцеплению в генетически изолированной популяции человека.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

2.4 Сравнение неравновесия по сцеплению в различных популяциях человека.

Постановка проблемы.

Материал и методы.

Результаты и обсуждение.

2.5 Общее обсуждение.

3 Разработка методов генетического картирования с помощью неравновесия по сцеплению.

3.1 Введение.

3.2 Метод регрессии на средовые остатки.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

3.3 Использование генетического фона при полногеномном анализе ассоциаций количественных признаков в выборках родственных особей.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

3.4 Общее обсуждение.

4 Полногеномное исследование количественных признаков человека.

4.1 Введение.

4.2 Полногеномное исследование уровня липидов крови человека в 16ти популяционных когортах.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

4.3 Идентификация ассоциации между генетической вариацией в локусе JAZF1 и ростом человека с помощью полногеномного анализа.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

4.4 Предсказание роста человека на основе генетических данных.

Постановка проблемы.

Материал и методы.

Результаты.

Обсуждение.

4.5 Общее обсуждение.

Введение Диссертация по биологии, на тему "Разработка и применение методов полногеномного анализа генетических ассоциаций сложных признаков"

Актуальность

Идентификация генов и аллелей, контролирующих разнообразие сложных признаков, является важной теоретической и прикладной задачей генетики. Информация об этих генах позволяет получить новые знания о биологических системах, участвующих формировании таких признаков. Кроме того, знание конкретных аллельных вариантов, контролирующих сложные признаки человека, находит применение в таких областях как криминалистика и медицина. Для сельскохозяйственных и домашних животных идентификация аллельных вариантов позволяет вести направленную эффективную селекцию.

Исходными популяциями, на основании которых формируется выборка для изучения генетического контроля признаков, могут быть инбредные линии (модельные объекты), либо аутбредные популяции. Структура выборки может быть либо фиксированной (направленные скрещивания инбредных линий, некоторые скрещивания сельскохозяйственных или домашних животных), либо произвольной, т.е. не находящейся под контролем исследователя. В данной работе в качестве материала для генетического анализа мы рассматриваем выборки произвольной структуры, полученные из аутбредных популяций человека, сельскохозяйственных и домашних животных. При этом предполагается, что выборка формируется из одной исходной популяции.

Существует несколько подходов к идентификации генов и аллелей в выборках произвольной структуры, полученных из аутбредных популяций. Подход, предусматривающий поиск генов-кандидатов, предполагает исследование ассоциации признака с аллелями гена, относительно продукта которого известно, что он вовлечен в метаболические пути, ведущие к признаку. Ясно, что основным недостатком этого метода является невозможность получения принципиально новой информации о биологии признака, так как он существенно ограничен уже имеющимися знаниями. Более того, принятая в 1990х - начале 2000х годов методология анализа генов-кандидатов зачастую давала ложноположительные результаты. Например, ЬоЬшиеНег и коллеги (ЬонмиЕЬЬЕЯ а1 2003) провели мета-анализ ассоциации между различными болезнями человека и 25 полиморфизмами генов-кандидатов, исследованных в 301 работе. При этом только 8 из 25 ассоциаций оказались статистически значимыми при проведении мета-анализа.

Основной недостаток генно-кандидатного подхода — невозможность получения принципиально нового знания - устраняется при применении полногеномного картирования. При этом подходе для определения геномных районов, содержащих аллели, контролирующие признак, применяется большое количество маркеров, покрывающих весь геном. Исторически, первым широко применяющимся методом полногеномного анализа стал анализ сцепления.

При анализе сцепления выборка, состоящая из близких родственников с известными значениями исследуемого признака, генотипируется с применением панели из 200-10,000 полиморфных маркеров, покрывающих весь геном. Далее, анализируется совместное наследование (сцепление, или косегрегация) признака и маркерных генотипов. Значимое сцепление указывает регион (как правило, довольно большой - от двух до пятидесяти миллионов пар оснований), содержащий ген, высокопенетрантные аллели которого оказывают влияние на изучаемый признак. Метод анализа сцепления хорошо зарекомендовал себя при идентификации генов простых менделевских заболеваний. С начала 1990-х годов этот мбтод широко применялся для изучения сложных признаков человека, но дал удручающе мало результатов. Идентифицированные гены, как правило, объясняли малую долю случаев болезни, так как метод позволял идентифицировать, в основном, относительно редкие «менделевские» семейные формы сложных заболеваний.

Одним из наиболее перспективных современных методов, применяемых для идентификации локусов сложных признаков, является метод полногеномного анализа ассоциаций (Genome-Wide Association, GWA). При полногеномном анализе ассоциаций сотни тысяч однонуклеотидных полиморфизмов (SNP), покрывающих геном, типируются в группах фенотипированных людей. Изучение ассоциации между распределением генотипов и фенотипа позволяет установить связь между аллельной вариацией в некотором геномном регионе и исследуемым признаком.

В момент начала работ по теме данной диссертации метод полногеномного анализа ассоциаций ещё не являлся общепринятым методом исследования генетики сложных признаков человека и аутбредных животных. Необходимо было оценить теоретическую возможность таких исследований, рассмотреть вопросы наиболее эффективного формирования выборки, разработать методы статистического анализа полногеномных данных и создать пакеты прикладных программ, позволяющих осуществлять такой анализ. Именно этим теоретическим вопросам, а также апробации полученных методических разработок на реальных данных, посвящена данная диссертация.

Цели и задачи исследования

Целью исследования является разработка методов полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций, апробация этих методов на реальных данных и идентификация новых локусов, контролирующих сложные, в том числе патологические, признаки человека.

Для достижения цели были поставлены следующие задачи:

1. Исследовать возможные стратегии формирования выборки для картирования локусов, контролирующих сложные признаки человека методом полногеномного анализа ассоциаций. В частности, сравнить преимущества и недостатки формирования выборки из представителей молодых генетически изолированных и открытых популяций человека.

2. Разработать методы и программное обеспечение для проведения полногеномного анализа ассоциаций на материале выборок произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных.

3. Провести апробацию разработанных методов и программного обеспечения на примере полногеномного анализа уровней липидов крови и роста человека; определить новые локусы, участвующие в контроле этих признаков.

4. Оценить прогностический потенциал геномных данных для предсказания значений количественных признаков (на примере уровней липидов крови и роста человека) и вероятности развития определенного фенотипа (на примере гиперхолестеринемии и крайних вариантов роста).

Научная новизна

Показано, что в молодых генетически изолированных популяциях эффект дрейфа генов, выражающийся в потере или существенном увеличении частоты некоторых аллелей, наблюдается для аллелей с начальной частотой <1% и мало заметен для аллелей с начальной частотой >5%.

Показано, что длины карт неравновесия по сцеплению для молодых генетически изолированных популяций на ~30% меньше, чем для открытой популяции человека, что увеличивает мощность идентификации генетических локусов, ассоциированных с изучаемыми признаками.

Разработаны новые методы анализа ассоциаций в рамках модели «измеренных генотипов», позволяющие анализировать выборки произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных. Эти методы являются статистически мощными и вычислительно эффективными.

Создан пакет эффективных компьютерных программ для полногеномного анализа ассоциаций количественных и бинарных признаков в популяционных и семейных выборках человека и аутбредных животных.

В ходе апробации разработанных методов и пакетов программ проведен полногеномный анализ ассоциаций уровней липидов плазмы крови человека. Впервые подобный анализ проведен на популяционных выборках, а в набор картируемых характеристик липидного обмена введен уровень общего холестерина. Идентифицировано шесть новых локусов, контролирующих уровни липидов в крови человека. Также проведен полногеномный анализ роста человека и идентифицирован новый локус, контролирующий этот признак.

Показано, что геномный профиль роста объясняет 4-6% дисперсии этого признака. Геномные профили липидов объясняют существенную долю (1-7%) дисперсии этого признака; эта доля сравнима с таковой, объясняемой индексом массы тела.

Впервые показано, что геномный профиль общего холестерина является предиктором дислипидемии и статистически значимым, независимым от уровня циркулирующего холестерина, предиктором толщины комплекса интима-медиа сосудистой стенки. Из всех геномных профилей классических липидов, геномный профиль холестерина является наилучшим предиктором дислипидемии, ишемической болезни сердца и атеросклероза.

Теоретическая и практическая ценность

Полученные нами оценки вероятности потери аллелей и коэффициента вариации распределения частоты аллеля, а также оценки длины карты неравновесия по сцеплению в молодых генетически изолированных популяциях человека, позволили сделать важный теоретический вывод о том, что мощность метода полногеномного анализа ассоциаций в среднем выше при использовании выборок из молодых генетически изолированных популяций, а результаты анализа должны в целом совпадать с таковыми, полученными в открытых популяциях человека. Данные результаты предоставили теоретическое обоснование для дальнейших практических полногеномных генетических исследований сложных признаков с использованием генетически изолированных популяций человека (например, консорциумы EUROSPAN, ENGAGE, CHARGE, другие исследования). В настоящее время использование материала из молодых генетически изолированных популяций для верификации результатов, полученных на материале открытых популяций (и наоборот), является общепринятым.

Разработанные нами новые методы и пакеты программ широко применяются в исследованиях генетики сложных признаков человека, сельскохозяйственных и домашних животных. В частности, список зарегистрированных пользователей нашего пакета GenABEL составляет более 250 человек; статьи, представляющие результаты наших методических разработок (Amin et al. 2007; Aulchenko et al. 2007a; Aulchenko et al. 2007b), цитировались более 70 раз.

Наши полногеномные исследования контроля уровня холестерина крови человека доказали важность этого признака и частично сместили акценты в исследованиях геномного контроля липидов; так, на основании этого результата консорциум GLGC (Global Lipids Genetics Consortium) в настоящее время проводит анализ, в том числе, и уровня холестерина.

Идентифицированные нами новые локусы, участвующие в контроле уровня липидов в крови и роста, расширили наши представления о механизмах контроля нормальной вариации этих признаков в популяциях человека. Кроме того, идентифицированный нами новый локус роста тела, JAZF1, обладает плейотропным действием, что расширяет имеющиеся представления о механизмах генетического контроля роста и связи между раком, аутоиммунными заболеваниями и ростом тела.

Полученные результаты используются в нескольких курсах, преподаваемых в НГУ и медицинском центре «Эразмус» (GE03, "Advances in population-based analysis"; GE05, "Family-based genetic analysis"), а также использовались в лекциях на школах молодых ученых, проходивших в Москве, Уфе и Томске.

Положения, выносимые на защиту

1. Полногеномный анализ ассоциаций, проводимый с использованием разработанных нами алгоритмов и пакетов программ, является мощным и воспроизводимым методом идентификации эффектов распространенных аллелей.

2. Молодые генетически изолированные популяции являются лучшим ресурсом для выявления и изучения как распространенных, так и редких аллелей, влияющих на изучаемые сложные признаки.

3. Геномный профиль холестерина является наилучшим геномным предиктором дислипидемии, ишемической болезни сердца и атеросклероза.

4. Разработанный нами метод GRAMMAR-GC является статистически мощным и вычислительно эффективным методом полногеномного анализа ассоциации в выборках особей, связанных родством.

5. Локус JAZF1, помимо участия в контроле диабета второго типа, рака простаты и системной красной волчанки, также принимает участие в детерминации роста.

Личный вклад автора

В диссертации представлены результаты, полученные автором в сотрудничестве с учеными из России и многих стран мира.

Все экспериментальные данные (выборки, генотипирование, фенотипирование) получены в рамках сотрудничества. Автор принимал активное участие в планировании выборки ERF, являвшейся одним из основных ресурсов при проведении данной работы.

В большей части исследований, представленных в данной работе, автор выступал в качестве руководителя и/или основного исполнителя. В частности, автор разработал идею и являлся ответственным за основную часть анализа и интерпретацию результатов работ, изложенных в разделах 2.3, 3.2, 4.4. Автор являлся ответственным за основную часть анализа и интерпретацию результатов, изложенных в разделе 4.2. Автор разработал идею, руководил работой и являлся ответственным за интерпретацию результатов, изложенных в разделах 2.2, 3.3 и 4.3. Автор непосредственно провел часть анализов и участвовал в интерпретации результатов, изложенных в разделе 2.4.

Апробация работы

Результаты работы, изложенной в данной диссертации, были представлены на следующих конференциях и симпозиумах:

• WEON (Werkgroep Epidemiologisch Onderzoek Nederland), (Rotterdam, The Netherlands, 2003). Presentation "Linkage disequilibrium in recently isolated Dutch population"

• 6th International Conference "Health Insurance in Transition" (Dubrovnik, Croatia, 2003). Invited talk "ERF study: Erasmus family research in isolated population"

• 9th Quantitative Trait Loci / Marker Assisted Selection Workshop (Rostock, Germany, 2004). Invited talk "Preliminary analysis of the Erasmus Rucphen Family Study"

• Haplotype Sharing Workshop, (Heidelberg, Germany, 2006). Invited talk "Haplotype sharing, linkage disequilibrium and complex genealogies"

• 9я школа-семинар по популяционной генетике (Уфа, 2006). Доклад "Методы генетической эпидемиологии сложных признаков человека"

• VIII научная конференция «ГЕНЕТИКА ЧЕЛОВЕКА И ПАТОЛОГИЯ» (Томск, 2007). Доклад «Методы картирования комплексных признаков человека»

• 58th Annual Meeting of American Society of Human Genetics (Philadelphia, USA, 2008). Platform presentation "First neuronally expressed gene associated with multiple sclerosis."

• European Mathematical Genetics Meeting (Munich, Germany, 2009). Invited talk «Predicting human height by Victorian and post-genomic methods»

• Dutch human genetics society meeting (Veldhoven, The Netherlands, 2009). Presentation «Genome-wide association analysis of 16 European populations identifies novel loci influencing lipid levels»

• Genetics of complex diseases in isolated populations (Trieste, Italy, 2009). Invited talk «Meta-analysis of genome-wide association scans»

• V Съезд Вавиловского общества генетиков и селекционеров (Москва, 2009). Доклад «Количественная интегративная геномика сложных признаков человека»

• European Mathematical Genetics Meeting (Oxford, UK, 2010). Invited talk «Challenges in statistical genomics of complex human traits»

Объём и структура диссертации

Диссертация состоит из пяти глав. Объем диссертации составляет 290 страниц, диссертация включает 34 таблицы и 25 иллюстраций.

Публикации по теме диссертации

Результаты работы, изложенной в данной диссертации, были опубликованы в виде 37 статей в рецензируемых научных журналах, в том числе в «New England Journal of Medicine», «Nature Genetics», «American Journal of Human Genetics», «PLoS Genetics», «Human Molecular Genetics».

1 ОБЩЕЕ ВВЕДЕНИЕ

В данной главе представлено введение в методы анализа ассоциаций между сложными признаками и полиморфными генетическими маркерами. Обсуждаются вопросы формирования выборки, контроля качества генетических данных и тестирования ассоциации. Основное внимание уделяется описанию статистических методов, применяемых для анализа ассоциаций между сложными бинарными и количественными признаками и полиморфными маркерами. Описана методология мета-анализа, позволяющая комбинировать результаты ранее опубликованных и собственных исследований. Обсуждается основная проблема, возникающая при анализе генетической ассоциации сложных признаков - проблема генетической гетерогенности выборки.

Описанные методы широко применялись и по-прежнему применяются для анализа ассоциаций генов-кандидатов. Начиная с 2005 года, широкое распространение получил метод полногеномного анализа ассоциаций, разработке методов и апробации которого посвящена данная диссертация. Последний раздел этой главы дает краткий исторический обзор теоретических, технологических, информационных и методических предпосылок развития этого метода.

Следует отметить, что методы анализа ассоциаций в основном были разработаны и применялись для анализа признаков человека. Хотя эта глава в основном описывает методологию анализа ассоциаций признаков человека, это в целом не уменьшает её общность, так как при анализе сложных признаков на материале из аутбредных выборок животных применялись те же или чрезвычайно сходные методы.

Заключение Диссертация по теме "Генетика", Аульченко, Юрий Сергеевич

выводы

1. Исследован эффект дрейфа генов в молодых генетически изолированных популяциях человека. Показано, что в таких популяциях эффект дрейфа генов мал для распространенных (частота >5%) аллелей и выражен для аллелей, имеющих начальную частоту <1%.

2. Проведен сравнительный анализ структуры неравновесия по сцеплению в различных популяциях человека. Показано, что длины карт неравновесия по сцеплению для молодых генетически изолированных популяций на -30% меньше, чем для открытых популяций человека.

3. Разработаны новые методы для проведения полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных. Эти методы являются статистически мощными и вычислительно эффективными.

4. Разработано новое программное обеспечение для проведения полногеномного анализа ассоциаций. Разработанный пакет программ ОепАВЕЬ реализует большое число современных методов полногеномного анализа ассоциаций и позволяет анализировать миллионы БКР, типированных в тысячах образцов, на персональных компьютерах.

5. С использованием разработанных методов и программ проведен полногеномный анализ ассоциаций уровней липидов в крови человека. Впервые в мире, такой анализ проведен на популяционных выборках. Также впервые проведен полногеномный анализ ассоциаций уровней общего холестерина. Идентифицированы шесть новых локусов, контролирующих уровни липидов.

6. Проведен полногеномный анализ сцепления с последующим анализом генетических ассоциаций с ростом человека. Идентифицирован новый локус, контролирующий рост тела и имеющий плейотропное влияние на ряд других признаков, в том числе патологических.

7. Оценен потенциал метода предсказания значения сложного признака на основе генотипических данных и проведено практическое исследование возможности использования геномных данных для предсказания таких признаков человека, как роста тела, уровень липидов в крови и риск дислипидемии. Показано, что геномные профили объясняют 4-6% дисперсии роста и 1-7% дисперсии липидов. Также показано, что геномный профиль холестерина является статистически значимым, независимым от уровня циркулирующего холестерина, предиктором толщины интима-медиа и дислипидемии.

5 ЗАКЛЮЧЕНИЕ

Основной целью исследований, описанных в данной работе, являлась разработка методов полногеномного анализа ассоциаций в выборках произвольной структуры из аутбредных популяций, апробация этих методов на реальных данных и идентификация новых локусов, контролирующих сложные, в том числе патологические, признаки человека.

В момент начала работы по этой теме (2003Й год), за исключением моногенных форм, объясняющих ничтожную долю случаев, было известно всего несколько локусов, генетическая вариация которых была достоверно связана с разнообразием сложных признаков человека, в частности, с риском распространенных болезней человека. За прошедшее время, эта ситуация изменилась кардинальным образом - в настоящий момент известны более тысячи локусов, достоверно ассоциированных с сотнями признаков человека (см. неполный каталог результатов полногеномных исследований ассоциаций на сайтах http://www.genome, gov/gwastudies/, а также «GWAS Integrator», http://hugenavigator.net/HuGENavigator/gWAHitStartPage.doV Эти успехи в большой степени обусловлены применением нового метода - полногеномного анализа ассоциаций.

Автору данной диссертации посчастливилось принимать участие в работах, приведших к современному буму полногеномных исследований ассоциаций с начала 2000х годов. В настоящее время он является (со)автором работ, в которых был проведен полногеномный анализ ассоциаций 32х признаков; в результате было идентифицировано 238 значимых ассоциаций в 148ми различных регионах генома (по данным сайта «GWAS Integrator», запрос произведен 21 то апреля 2010 года). Были исследованы такие сложные признаки человека, как ожирение (JOHANSSON et al. 2009b) и антропометрические характеристики (Heard-Costa et al. 2009; llndgren et al. 2009), остеопороз (Richards et al. 2009; Rivadeneira et al. 2009), рассеянный склероз (Aulchenko et al. 2008; hoppenbrouwers et al. 2009), уровни липидов в крови (Aulchenko et al. 2009a; hicks et al. 2009), уровни различных метаболитов (kolz et al. 2009; Pattaro et al. 2009; Prokopenko et al. 2009) и пептидов (Kollerits et al. 2009), рост (Estrada et al. 2009; Johansson et al. 2009a), функция почки (kottgen et al. 2009), артериальное давление крови (Levy et al. 2009), инсульт (Ikram et al. 2009), курение (vlnk et al. 2009), структура и функционирование сердца (vasan et al. 2009), цвет радужной оболочки глаза (Kayser et al. 2008b) и так далее.

В главе 1, «Общее введение», были описаны основные методы идентификации генов и аллелей сложных признаков; там же рассмотрены исторические предпосылки развития и дан краткий обзор этапов развития метода полногеномного анализа ассоциаций. Далее, в главе 2, «Аллельный спектр и структура неравновесия по сцеплению в популяциях человека», были исследованы вопросы стратегии формирования выборки для картирования локусов, контролирующих сложные признаки человека методом полногеномного анализа ассоциаций. В главе 3, «Разработка методов генетического картирования с помощью неравновесия по сцеплению», описаны новые методы и программное обеспечение для проведения полногеномного анализа ассоциаций на материале выборок произвольной структуры из аутбредных популяций человека, сельскохозяйственных и домашних животных. В главе 4, «Полногеномное исследование количественных признаков человека», приведены результаты апробации разработанных методов и программного обеспечения на примере полногеномного анализа уровней липидов крови и роста человека и определены новые локусы, участвующие в контроле этих признаков. В той же главе был оценен прогностический потенциал геномных данных для предсказания значений количественных признаков (на примере уровней липидов крови и роста человека) и вероятности развития определенного фенотипа (на примере гиперхолестеринемии и крайних значений роста).

В главе 2, «Аллельный спектр и структура неравновесия по сцеплению в популяциях человека», показано, что в молодых генетически изолированных популяциях, представленных в Европе в большом количестве, частота редких (начальная частота <1%) аллелей может быть как резко (в разы) повышена, так и резко (вплоть до полного исчезновения) снижена, что приводит к повышению мощности генетического анализа в таких популяциях. Относительно распространенных аллелей, нами было показано, что генетические варианты с частотой 5% или выше будут присутствовать как в молодых генетических изолятах, так и в открытых популяциях. Следовательно, результаты геномного сканирования, проведенного в молодых генетически изолированных популяциях, могут быть обобщены на открытую популяцию, и наоборот (раздел 2.2, «Эффекты дрейфа генов в генетически изолированной популяции человека»). Далее, нами было показано, что в молодых генетически изолированных популяциях неравновесие по сцеплению распространяется на значительно большие дистанции по сравнению с большими открытыми популяциями (раздел 2.3, «Характеризация неравновесия по сцеплению в генетически изолированной популяции человека»), в частности, для хромосомы 22 карта неравновесия по сцеплению для генетических изолятов на -20-45% короче, чем для открытых популяций (раздел 2.4, «Сравнение неравновесия по сцеплению в различных популяциях человека»), что приводит к аналогичному повышению ожидаемой мощности полногеномного анализа ассоциаций. Таким образом, на основании исследований, представленных в главе 2, было сделано заключение, что молодые генетически изолированные популяции представляют ценный ресурс для картирования локусов сложных признаков методом полногеномного анализа ассоциаций, и были получены количественные оценки, позволяющие определить необходимую плотность карты маркеров и/или дополнительную мощность, получаемую при исследовании таких популяций.

В главе 3, «Разработка методов генетического картирования с помощью неравновесия по сцеплению», нами был сформулирован и реализован ряд новых, быстрых, простых и легко обобщаемых методов, позволяющих проводить полногеномный анализ ассоциаций признаков в выборках родственников. Разработанные нами методы не требуют априорного знания степени родства между исследуемыми особями, (родословной), так как для оценки генетического родства используются геномные данные. Мощность новых методов практически не уступает мощности «золотого стандарта» для методов исследования ассоциаций по выборкам родственников (классический метод измеренных генотипов). Разработанные методы были реализованы в пакете прикладных программ для анализа полногеномных данных, вепАВЕЬ.

На основании результатов, представленных в главе 2, «Аллельный спектр и структура неравновесия по сцеплению в популяциях человека», было решено проводить исследование генетики сложных признаков человека в рамках консорциума, объединяющего некоторые генетически изолированные популяции Европы (консорциум ЕШЮЗРАЬТ). Методы полногеномного анализа, использованные в этих эмпирических исследованиях, в большой части базируются на методах, разработанных в главе 3 этой диссертации. Часть успешных исследований данного консорциума описана в главе 4, «Полногеномное исследование количественных признаков человека». В настоящее время возможность использования генетически изолированных популяций для идентификации локусов сложных признаков с использованием метода полногеномного анализа ассоциаций не вызывает сомнения, а методы, описанные и реализованные нами, вошли в стандартный арсенал полногеномных исследований ассоциаций.

Следует отдельно отметить, что применение методов, разработанных нами в главе 3, не ограниченно только изолированными популяциями человека. В первую очередь, они применимы для анализа любых семейных выборок человека. Принимая во внимание то, что при субтотальном (>10%) обследовании любой популяции в выборке обязательно начинают встречаться родственные особи, и принимая во внимание, что многие исследования в настоящий момент выходят на субтотальный уровень, роль разработанных нами методов будет в дальнейшем повышаться. Более того, как это ясно из разделов 3.2 и 3.3, сконструированные нами методы могут применяться при полногеномном анализе признаков сельскохозяйственных и домашних животных. В частности, нам известно^ что в настоящий момент разработанные нами методы и пакеты программ применяются при исследовании генетики крупного рогатого скота и собак.

В целом, результаты работ, представленных в главе 3 («Разработка методов генетического картирования с помощью неравновесия по сцеплению») следует признать одними из наиболее успешных из представленных в данной диссертации. Так, число пользователей в списке рассылки (который включает только пользователей, которые обращались с вопросами к разработчикам) нашего пакета полногеномного анализа ассоциаций GenABEL составляет более двухсот пятидесяти человек, а сам пакет был упомянут в статье New York Times, посвященной вычислительной среде R.

В главе 4, «Полногеномное исследование количественных признаков человека», нами описаны работы по идентификации нескольких новых локусов, генетическая вариация которых ассоциирована с изменением уровня липидов в крови человека и ростом тела. Одним из наиболее интересных биологических результатов данной главы представляется открытие, что уровень липидов в крови человека зачастую контролируется вариацией в генах, которые представлены гомологичными кластерами (FADS1/2/3, ABCG5/8). Далее, нами был идентифицирован JioKyc&JAZFl, который представляет пример плейотропного эффекта — SNP rs849140, ассоциированный с ростом в нашем исследовании, также ассоциирован с диабетом второго типа (Zeggini et al. 2008) и системной красной волчанкой (Gateva et al. 2009). Другие SNP этого же локуса ассоциированы с раком простаты (Thomas et al. 2008). Методологически, нами, как и другими исследователями, было показано, что полногеномный анализ ассоциаций является мощным методом идентификации распространенных аллелей, контролирующих сложные признаки. Результаты, полученные с использованием метода полногеномного анализа ассоциаций, в целом хорошо воспроизводимы при использовании строгих критериев полногеномной значимости (см. раздел 4.5, «Общее обсуждение», главы 4, «Полногеномное исследование количественных признаков человека»). Эти результаты оправдывают дальнейшее широкое применение метода полногеномного анализа ассоциаций — метода, который за последние несколько лет стал de-facto стандартом идентификации локусов сложных признаков человека.

Следует отметить, что полногеномные анализы, представленные в главе 4, были проведены в рамках различных консорциумов (ENGAGE при анализе липидов и EURO SPAN при анализе роста). При этом анализы, выполненные для каждой когорты/популяции отдельно, в дальнейшем объединялись с использованием методологии полногеномного мета-анализа. В настоящее время эта методология является стандартной при исследовании сложных признаков человека. Однако следует подчеркнуть, что представленная в данной диссертации работа (Aulchenko et al. 2009а) является одной из первых, где полногеномный мета-анализ используется для комбинирования результатов, полученных при анализе большого (шестнадцати) числа исследований. Эта работа, выполненная в рамках консорциума ENGAGE, внесла значительный вклад в формирование последующих стандартов полногеномного (мета-)анализа.

В главе 4 нами также были описаны методологические основы и проведена апробация использования результатов полногеномных исследований ассоциаций для предсказания значения количественных и бинарных признаков человека. За несколько последних лет методология, предложенная Janssens et al. (janssens et al. 2004) и в дальнейшем исследования нами (janssens et al. 2006), - использование площади под кривой (ППК), показывающей соотношение между ложноположительными и истинноположительными результатами теста, для характеризации предсказательной мощности генетического профиля -стала стандартной и используется во многих работах, представляющих результаты полногеномного анализа. В главе 4 мы показываем, что на основании знания локусов, идентифицированных в ходе полногеномных анализов ассоциаций, возможно конструирование генетических профилей риска, которые (уже или в перспективе) могут предсказывать значение количественных признаков и долговременный риск развития заболевания. С ростом числа известных локусов, геномное профилирование может стать стандартной процедурой при предсказании некоторых признаков. Однако потенциал этого метода в значительной степени зависит как от генетической архитектуры признака, так и от размера финансового инвестирования в геномные исследования этого признака.

Работы, представленные в данной диссертации, получили широкий отклик в научной среде: так, работы, представленные в главе 2 (Aulchenko et al. 2003; Aulchenko et al. 2004; Pardo et al. 2005; Service et al. 2006) были процитированы 164 раза, работы, представленные в главе 3 (Amin et al. 2007; Aulchenko et al. 2007a; Aulchenko et al. 2007b) - 72 раза, а работы, представленные в главе 4 (Janssens et al. 2006; Kayser et al. 2008a; Aulchenko et al. 2009a; Aulchenko et al. 2009b; Johansson et al. 2009a) - 165 раз (ISI Web of Knowledge, запрос произведен 21 то апреля 2010). В сумме работы автора данной диссертации (в том числе работы, не включенные в данную диссертацию), цитируются более тысячи раз (из них более 400 цитирований за 2009Й год).

Следует отметить, что хотя идентификация локусов сложных признаков с помощью метода полногеномного анализа ассоциаций и является важным этапом генетического анализа, этот метод зачастую не дает окончательного ответа на вопрос, функция какого именно гена затронута, и какой именно генный продукт вовлечен в контроль признака. Для ответа на этот несомненно биологически важный вопрос необходимо проведение функциональных, молекулярно-генетических и физиологических исследований. Однако рассмотрение вопроса функциональности идентифицированных полиморфизмов находится за рамками поставленной нами цели.

Разрешающая способность метода полногеномного анализа ассоциаций ограничена распространенными аллелями (с частотой редкого аллеля >5%). В то же время, в контроле многих признаков, судя по всему, велика роль множественных редких аллелей (гипотеза «распространенная болезнь -множество редких аллелей», CDMRV). Такие аллели можно детектировать с помощью современных технологий, которые уже позволяют ресеквенировать индивидуальные геномы; цена таких исследований стремительно снижается. Однако генетический анализ редких аллелей представляет собой большую методическую проблему, так как статистическая мощность оценки эффекта редкого фактора чрезвычайно мала. Успешное решение проблемы установления роли редких аллелей в детерминации сложных признаков потребует создания принципиально новых методов анализа, которые, скорее всего, будут лишь в малой степени сходны с методами классической эпидемиологии.

Библиография Диссертация по биологии, доктора биологических наук, Аульченко, Юрий Сергеевич, Новосибирск

1. Nature 426: 789-796.

2. Abecasis, G. R., L. R. Cardon and W. O. Cookson, 2000 A general test ofassociation for quantitative traits in nuclear families. Am J Hum Genet 66: 279-292.

3. Abecasis, G. R., and W. O. Cookson, 2000 GOLD-graphical overview of linkage disequilibrium. Bioinformatics 16: 182-183.

4. Abecasis, G. R., E. Noguchi, A. Heinzmann, J. A. Traherne, S. Bhattacharyya et al., 2001 Extent and distribution of linkage disequilibrium in three genomic regions. Am J Hum Genet 68: 191-197.

5. Abecasis, G. R., S. S. Cherny, W. O. Cookson and L. R. Cardon, 2002 Merlinrapid analysis of dense genetic maps using sparse gene flow trees. Nat Genet 30: 97-101.

6. Abney, M., C. Ober and M. S. McPeek, 2002 Quantitative-trait homozygosity and association mapping and empirical genomewide significance in large, complex pedigrees: fasting serum-insulin level in the Hutterites. Am J Hum Genet 70: 920-934.

7. Almasy, L., and J. Blangero, 1998 Multipoint quantitative-trait linkage analysis in general pedigrees. Am J Hum Genet 62: 1198-1211.

8. Amin,N., C. M. vanDuijn and Y. S. Aulchenko, 2007 A genomic background based method for association analysis in related individuals. PLoS ONE 2: el274.

9. Anderson, K. M., P. M. Odell, P. W. Wilson and W. B. Kannel, 1991 Cardiovascular disease risk profiles. Am Heart J 121: 293-298.

10. Angius, A., P. M. Melis, L. Morelli, E. Petretto, G. Casu et al, 2001 Archival, demographic and genetic studies define a Sardinian sub-isolate as a suitable model for mapping complex traits. Hum Genet 109: 198-209.

11. Ash, A., and M. Shwartz, 1999 R2: a useful measure of model performance when predicting a dichotomous outcome. Stat Med 18: 375-384.

12. Aulchenko, Y. S., T. I. Axenovich, I. Mackay and C. M. van Duijn, 2003 miLD and booLD programs for calculation and analysis of corrected linkage disequilibrium. Ann Hum Genet 67: 372-375.

13. Aulchenko, Y. S., P. Heutink, I. Mackay, A. M. Bertoli-Avella, J. Pullen et al, 2004 Linkage disequilibrium in young genetically isolated Dutch population. Eur J Hum Genet 12: 527-534.

14. Aulchenko, Y. S., D. J. de Koning and C. Haley, 2007a Genomewide rapidassociation using mixed model and regression: a fast and simple method for genomewide pedigree-based quantitative trait loci association analysis. Genetics 177: 577-585.

15. Aulchenko, Y. S., S. Ripke, A. Isaacs and C. M. van Duijn, 2007b GenABEL: an R library for genome-wide association analysis. Bioinformatics 23: 1294-1296.

16. Aulchenko, Y. S., I. A. Hoppenbrouwers, S. V. Ramagopalan, L. Broer, N. Jafari et al, 2008 Genetic variation in the KIF1B locus influences susceptibility to multiple sclerosis. Nat Genet 40: 1402-1403.

17. Aulchenko, Y. S., S. Ripatti, I. Lindqvist, D. Boomsma, I. M. Heid et al, 2009a Loci influencing lipid levels and coronary heart disease risk in 16 European population cohorts. Nat Genet 41: 47-55.

18. Aulchenko, Y. S., M. V. Struchalin, N. M. Belonogova, T. I. Axenovich, M. N. Weedon et al., 2009b Predicting human height by Victorian and genomic methods. Eur J Hum Genet 17: 1070-1075.

19. Bacanu, S. A., B. Devlin and K. Roeder, 2000 The power of genomic control. Am J Hum Genet 66: 1933-1944.

20. Bacanu, S. A., B. Devlin and K. Roeder, 2002 Association studies for quantitative traits in structured populations. Genet Epidemiol 22: 78-93.

21. Boomsma, D., G. Willemsen, P. Sullivan, P. Heutink, P. Meijer et al., 2008

22. Genome-wide association of major depression: description of samples for the GAIN Major Depressive Disorder Study: NTR and NESDA biobank projects. Eur J Hum Genet 16: 335-342.

23. Bourgain, C., and E. Genin, 2005 Complex trait mapping in isolated populations: Are specific statistical methods required? Eur J Hum Genet 13: 698-706.

24. Carvajal-Carmona, L. G., R. Ophoff, S. Service, J. Hartiala, J. Molina et al., 2003 Genetic demography of Antioquia (Colombia) and the Central Valley of Costa Rica. Hum Genet 112: 534-541.

25. Chakraborty, R., and R. Deka, 2002 Isolated populations, pp. 414-417 in

26. Biostatistical genetics and genetic epidemiology, edited by R. C. elston, J. E. Olson and L. J. Palmer. John Wiley & Sons, West Sussex.

27. Chapman, N. H., and E. M. Wijsman, 1998 Genome screens using linkagedisequilibrium tests: optimal marker characteristics and feasibility. Am J Hum Genet 63: 1872-1885.

28. Chasman, D., D. Posada, L. Subrahmanyan, N. Cook, V. Stanton et al., 2004 Pharmacogenetic study of statin therapy and cholesterol reduction. JAMA 291: 2821-2827.

29. Chen, W. M., and G. R. Abecasis, 2007 Family-based association tests for genomewide association scans. Am J Hum Genet 81: 913-926.

30. Clayton, D., and H. T. Leung, 2007 An R package for analysis of whole-genome association studies. Hum Hered 64: 45-51.

31. Clayton, D. G., N. M. Walker, D. J. Smyth, R. Pask, J. D. Cooper et al., 2005 Population structure, differential bias and genomic control in a large-scale, case-control association study. Nat Genet 37: 1243-1246.

32. Collins, A., and N. E. Morton, 1998 Mapping a disease locus by allelic association. Proc Natl Acad Sci U S A 95: 1741-1745.

33. Collins, A., C. Lonjou and N. E. Morton, 1999 Genetic epidemiology of single-nucleotide polymorphisms. Proc Natl Acad Sci U S A 96: 15173-15177.

34. Collins, L. L., Y. F. Lee, C. A. Heinlein, N. C. Liu, Y. T. Chen et al., 2004 Growth* retardation and abnormal maternal behavior in mice lacking testicular orphan nuclear receptor 4. Proc Natl Acad Sci U S A 101: 15058-15063.

35. Consortium, T. I. H., 2003 The International HapMap Project. Nature 426: 789-796.

36. Dawson, E., G. R. Abecasis, S. Bumpstead, Y. Chen, S. Hunt et al., 2002 A firstgeneration linkage disequilibrium map of human chromosome 22. Nature 418: 544-548.

37. Devlin, B., and K. Roeder, 1999 Genomic control for association studies. Biometrics 55: 997-1004.

38. Devlin, B., K. Roeder, C. Otto, S. Tiobech and W. Byerley, 2001 Genome-wide distribution of linkage disequilibrium in the population of Palau and its implications for gene flow in Remote Oceania. Hum Genet 108: 521-528.

39. Dunning, A. M., F. Durocher, C. S. Healey, M. D. Teare, S. E. McBride et al., 2000 The extent of linkage disequilibrium in four populations with distinct demographic histories. Am J Hum Genet 67: 1544-1554.

40. Durrant, C., K. T. Zondervan, L. R. Cardon, S. Hunt, P. Deloukas et al., 2004 Linkage disequilibrium mapping via cladistic analysis of single-nucleotide polymorphism haplotypes. Am J Hum Genet 75: 35-43.

41. Eaves, I. A., T. R. Merriman, R. A. Barber, S. Nutland, E. Tuomilehto-Wolf et al., 2000 The genetically isolated populations of Finland and Sardinia may not be a panacea for linkage disequilibrium mapping of common disease genes. Nat Genet 25: 320-323.

42. Endo, A., 1992 The discovery and development of HMG-CoA reductase inhibitors. J Lipid Res 33: 1569-1582.

43. Fallin, D., and N. J. Schork, 2000 Accuracy of haplotype frequency estimation for biallelic loci, via the expectation-maximization algorithm for unphased diploid genotype data. Am J Hum Genet 67: 947-959.

44. Falush, D., M. Stephens and J. K. Pritchard, 2003 Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies. Genetics 164: 1567-1587.

45. Fisher, R. A., 1918 The correlation between relatives on the supposition of Mendelian inheritance. Trans. R. Soc. Edinb. 52: 399-433.

46. Forabosco, P., M. Falchi and M. Devoto, 2005 Statistical tools for linkageanalysis and genetic association studies. Expert Rev Mol Diagn 5: 781-796.

47. Frazer, К. A., D. G. Ballinger, D. R. Cox, D. A. Hinds, L. L. Stuve et al., 2007 A second generation human haplotype map of over 3.1 million SNPs. Nature 449: 851-861.

48. Friedewald, W. Т., R. I. Levy and D. S. Fredrickson, 1972 Estimation of theconcentration of low-density lipoprotein,cholesterol in plasma, without use of the preparative ultracentrifuge. Clin Chem 18: 499-502.

49. Friedlander, Y., M. A. Austin, B. Newman, K. Edwards, E. I. Mayer-Davis et al., 1997 Heritability of longitudinal changes in coronary-heart-disease risk factors in women twins. Am J Hum Genet 60: 1502-1512.

50. Galton, F., 1886 Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 15: 246-263.

51. Gateva, V., J. K. Sandling, G. Ном, К. E. Taylor, S. A. Chung et al., 2009 A large-scale replication study identifies TNIP1, PRDM1, JAZF1, UHRF1BP1 and IL10 as risk loci for systemic lupus erythematosus. Nat Genet 41: 12281233.

52. George, V. Т., and R. C. Elston, 1987 Testing the association between polymorphic markers and quantitative traits in pedigrees. Genet Epidemiol 4: 193-201.

53. Gilmour, A. R., B. J. Gogel, B. R. Cullis, S. J. Welham and R. Thompson, 2002 ASReml user guide release 1.0. NSW Agriculture, Orange, Australia.

54. Gordon, D., I. Simonic and J. Отт, 2000 Significant evidence for linkagedisequilibrium over a 5-cM region among Afrikaners. Genomics 66: 87-92.

55. Groenewald, J. Z., J. Liebenberg, I. M. Groenewald and L. Warnich, 1998 Linkage disequilibrium analysis in a recently founded population: evaluation of the variegate porphyria founder in South African Afrikaners. Am J Hum Genet 62: 1254-1258.

56. Gudbjartsson, D., G. Walters, G. Thorleifsson, H. Stefansson, B.

57. Halldorsson et al., 2008 Many sequence variants affecting diversity of adult human height. Nat Genet 40: 609-615.

58. Hall, D., E. M. Wijsman, J. L. Roos, J. A. Gogos and M. Karayiorgou, 2002 Extended intermarker linkage disequilibrium in the Afrikaners. Genome Res 12: 956-961.

59. Hanley, J. A., and B. J. McNeil, 1982 The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 143: 29-36.

60. Heard-Costa, N. L., M. C. Zillikens, K. L. Monda, A. Johansson, T. B. Harris et al, 2009 NRXN3 is a novel locus for waist circumference: a genome-wide association study from the CHARGE Consortium. PLoS Genet 5: el000539.

61. Heath, S. C., 1997 Markov chain Monte Carlo segregation and linkage analysis for oligogenic models. Am J Hum Genet 61: 748-760.

62. Helgason, A., G. Nicholson, K. Stefansson and P. Donnelly, 2003 Areassessment of genetic diversity in Icelanders: strong evidence from multiple loci for relative homogeneity caused by genetic drift. Ann Hum Genet 67: 281297.

63. Hernandez-Sanchez, J., C. S. Haley and P. M. Visscher, 2003 Power of QTL detection using association tests with family controls. Eur J Hum Genet 11: 819-827.

64. Heutink, P., and B. A. Oostra, 2002 Gene finding in genetically isolated populations. Hum Mol Genet 11: 2507-2515.

65. Hofman, A., M. Breteler, C. van Duijn, G. Krestin, H. Pols et al., 2007 The Rotterdam Study: objectives and design update. European Journal of Epidemiology 22: 819-829.

66. Hoppenbrouwers, I. A., Y. S. Aulchenko, A. C. Janssens, S. V. Ramagopalan, L. Broer et al., 2009 Replication of CD58 and CLEC16A as genome-wide significant risk genes for multiple sclerosis. J Hum Genet 54: 676-680.

67. Hopper, J. L., and J. D. Mathews, 1982 Extensions to multivariate normal models for pedigree analysis. Ann Hum Genet 46 (4): 373-383.

68. Horvath, S., X. Xu, S. L. Lake, E. K. Silverman, S. T. Weiss et al., 2004 Family-based tests for associating haplotypes with general phenotype data: application to asthma genetics. Genet Epidemiol 26: 61-69.

69. Howard, B., G. Ruotolo and D. Robbins, 2003 Obesity and dyslipidemia. Endocrinol Metab Clin N Am 32: 855-867.

70. Janssens, A. C., M. C. Pardo, E. W. Steyerberg and C. M. van Duijn, 2004

71. Revisiting the clinical validity of multiplex genetic testing in complex diseases. Am J Hum Genet 74: 585-588; author reply 588-589.

72. Janssens, A. C., Y. S. Aulchenko, S. Elefante, G. J. Borsboom, E. W.

73. Steyerberg et al., 2006 Predictive testing for complex diseases using multiple genes: fact or fiction? Genet Med 8: 395-400.

74. Janssens, A. C., and C. M. van Duijn, 2008 Genome-based prediction of common diseases: advances and prospects. Hum Mol Genet 17: R166-173.

75. Johansson, A., V. Vavruch-Nilsson, A. Edin-Liljegren, P. Sjolander and U. Gyllensten, 2005 Linkage disequilibrium between microsatellite markers in the Swedish Sami relative to a worldwide selection of populations. Hum Genet 116: 105-113.

76. Johansson, A., F. Marroni, C. Hayward, C. S. Franklin, A. V. Kirichenko et al., 2009a Common variants in the JAZF1 gene associated with height identified by linkage and genome-wide association analysis. Hum,Mol Genet 18: 373-380.

77. Johansson, A., F. Marroni, C. Hayward, C. S. Franklin, A. V. Kirichenko et al, 2009b Linkage and Genome-wide Association Analysis of Obesity-related Phenotypes: Association of Weight With the MGAT1 Gene. Obesity (Silver Spring).

78. Kannel, W. B., T. R. Dawber, A. Kagan, N. Revotskie and J. Stokes, 3rd, 1961 Factors of risk in the development of coronary heart disease—six year follow-up experience. The Framingham Study. Ann Intern Med 55: 33-50.

79. KASPER, D., 2005 Harrison's Principles of Internal Medicine. McGraw-Hill

80. Kathiresan, S., O. Melander, D. Anevski, C. Guiducci, B. Burtt et al., 2008a Polymorphisms associated with cholesterol and risk of cardiovascular events. The New England Journal of Medicine 358: 1240-1249.

81. Kathiresan, S., O. Melander, C. Guiducci, A. Surti, N. P. Burtt et al., 2008b Six new loci associated with blood low-density lipoprotein cholesterol, high-density lipoprotein cholesterol or triglycerides in humans. Nat Genet 40: 189197.

82. Kathiresan, S., K. Musunuru and M. Orho-Melander, 2008c Defining the spectrum of alleles that contribute to blood lipid concentrations in humans. Curr Opin Lipidol 19: 122-127.

83. Kathiresan, S., C. J. Willer, G. M. Peloso, S. Demissie, K. Musunuru et al, 2009 Common variants at 30 loci contribute to polygenic dyslipidemia. Nat Genet 41: 56-65.

84. Kayser, M., F. Liu, A. C. Janssens, F. Rivadeneira, O. Lao et al, 2008a Three genome-wide association studies and a linkage analysis identify HERC2 as a human iris color gene. Am J Hum Genet 82: 411-423.

85. Kayser, M., F. Liu, A. C. J. W. Janssens, F. Rivadeneira, O. Lao et al., 2008b Three Genome-wide Association Studies and a Linkage Analysis Identify HERC2 as a Human Iris Color Gene. American journal of human genetics.

86. Ke, X., S. Hunt, W. Tapper, R. Lawrence, G. Stavrides et al., 2004 The impact of SNP density on fine-scale patterns of linkage disequilibrium. Hum Mol Genet 13: 577-588.klmura, M., and T. Ohta, 1971 Theoretical Aspects of Population Genetics.

87. Kollerits, B., S. Coassin, N. D. Beckmann, A. Teumer, S. Kiechl et al., 2009 Genetic evidence for a role of adiponutrin in the metabolism of apolipoprotein B-containing lipoproteins. Hum Mol Genet 18: 4669-4676.

88. Kolz, M., T. Johnson, S. Sanna, A. Teumer, V. Vitart et al., 2009 Meta-analysis of 28,141 individuals identifies common variants within five new loci that influence uric acid concentrations. PLoS Genet 5: el000504.

89. Kong, A., and N. J. Cox, 1997 Allele-sharing models: LOD scores and accurate linkage tests. Am J Hum Genet 61: 1179-1188.

90. Kong, A., D. F. Gudbjartsson, J. Sainz, G. M. Jonsdottir, S. A. Gudjonsson et al., 2002 A high-resolution recombination map of the human genome. Nat Genet 31: 241-247.

91. Kong, X., K. Murphy, T. Raj, C. He, P. S. White et al., 2004 A combined linkage-physical map of the human genome. Am J Hum Genet 75: 1143-1148.

92. Kooner, J., J. Chambers, C. Aguilar-Salinas, D. Hinds, C. Hyde et al., 2008 Genome-wide scan identifies variation in MLXIPL associated with plasma triglycerides. Nature Genetics 40: 149-151.

93. Koontz, J. I., A. L. soreng, M. Nucci, F. C. Kuo, P. pauwels et al., 2001 Frequent fusion of the JAZF1 and JJAZ1 genes in endometrial stromal tumors. Proceedings of the National Academy of Sciences of the United States of America 98: 6348-6353.

94. Kottgen, A., N. L. Glazer, A. Dehghan, S. J. Hwang, R. Katz et al., 2009 Multiple loci associated with indices of renal function and chronic kidney disease. Nat Genet.

95. Kruglyak, L., M. J. Daly, M. P. Reeve-Daly and E. S. Lander, 1996 Parametric and nonparametric linkage analysis: a unified multipoint approach. Am J Hum Genet 58: 1347-1363.

96. Maniatis, N., A. Collins, C. F. Xu, L. C. McCarthy, D. R. Hewett et al., 2002 The first linkage disequilibrium (LD) maps: delineation of hot and cold blocks by diplotype analysis. Proc Natl Acad Sci U S A 99: 2228-2233.

97. Maniatis, N., A. Collins, J. Gibson, W. Zhang, W. Tapper et al., 2004 Positional cloning by linkage disequilibrium. Am J Hum Genet 74: 846-855.

98. Manolio, T. A., 2009 Cohort studies and the genetics of complex disease. Nat Genet 41: 5-6.

99. Maraganore, D. M., M. de Andrade, T. G. Lesnick, K. J. Strain, M. J. Farrer et al., 2005 High-resolution whole-genome association study of Parkinson disease. Am J Hum Genet 77: 685-693.

100. Marchini, J., P. Donnelly and L. R. Cardon, 2005 Genome-wide strategies for detecting multiple loci that influence complex diseases. Nat Genet 37: 413417.

101. Marchini, J., B. Howie, S. Myers, G. McVean and P. Donnelly, 2007 A new multipoint method for genome-wide association studies by imputation of genotypes. Nat Genet 39: 906-913.

102. Marroni, F., D. Grazio, C. Pattaro, M. Devoto and P. Pramstaller, 2008

103. Estimates of Genetic and Environmental Contribution to 43 Quantitative Traits Support Sharing of a Homogeneous Environment in an Isolated Population from South Tyrol, Italy. Human Heredity 65: 175-182.

104. Matsuzaki, H., S. Dong, H. Loi, X. Di, G. Liu et al., 2004 Genotyping over 100,000 SNPs on a pair of oligonucleotide arrays. Nat Methods 1: 109-111.

105. McVean, G. A., S. R. Myers, S. Hunt, P. Deloukas, D. R. Bentley et al, 2004 The fine-scale structure of recombination rate variation in the human genome. Science 304:581-584.

106. Miller, N. E., and G. J. Miller, 1975 Letter: High-density lipoprotein and atherosclerosis. Lancet 1: 1033.

107. Morton, N. E., W. Zhang, P. Taillon-Miller, S. Ennis, P. Y. Kwok et al, 2001 The optimal measure of allelic association. Proc Natl Acad Sci USA 98: 5217-5221.

108. Muller-Myhsok, B., and L. Abel, 1997 Genetic analysis of complex diseases. Science 275: 1328-1329; author reply 1329-1330.

109. Nakajima, T., S. Fujino, G. Nakanishi, Y.-S. Kim and A. M. Jetten, 2004 TIP27: a novel repressor of the nuclear orphan receptor TAK1/TR4. Nucleic Acids Research 32: 4194-4204.

110. Nei, M., 1972 Genetic distance between populations. Am Nat 106: 283-292.

111. Newman, D. L., M. Abney, M. S. McPeek, C. Ober and N. J. Cox, 2001 The importance of genealogy in determining genetic associations with complex traits. Am J Hum Genet 69: 1146-1148.

112. Norio, R., H. R. Nevanlinna and J. Perheentupa, 1973 Hereditary diseases in Finland; rare flora in rare soul. Ann Clin Res 5: 109-141.

113. Paabo, S., 2003 The mosaic that is our genome. Nature 421: 409-412.

114. Pardo, L. M., I. MacKay, B. Oostra, C. M. van Duijn and Y. S. Aulchenko, 2005 The effect of genetic drift in a young genetically isolated population. Ann Hum Genet 69: 288-295.

115. Pato, C. N., M. H. Azevedo, M. T. Pato, J. L. Kennedy, I. Coelho et al., 1997

116. Selection of homogeneous populations for genetic study: the Portugal genetics of psychosis project. Am J Med Genet 74: 286-288.

117. Pattaro, C., F. Marroni, A. Riegler, D. Mascalzoni, I. Pichler et al., 2007 The genetic study of three population microisolates in South Tyrol (MICROS): study design and epidemiological perspectives. BMC Medical Genetics 8: 29.

118. Pattaro, C., Y. S. Aulchenko, A. Isaacs, V. Vitart, C. Hayward et al., 2009 Genome-wide linkage analysis of serum creatinine in three isolated European populations. Kidney Int 76: 297-306.

119. Patterson, N., A. L. Price and D. Reich, 2006 Population Structure and Eigenanalysis. PLoS Genet 2: el90.

120. Pilia, G., W. Chen, A. Scuteri, M. Orru, G. Albai et al, 2006 Heritability of cardiovascular and personality traits in 6,148 Sardinians. PLoS Genet. 2.

121. Price, A. L., N. J. Patterson, R. M. Plenge, M. E. Weinblatt, N. A. Shadick et al., 2006 Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38: 904-909.

122. Pritchard, J. K., M. Stephens and P. Donnelly, 2000 Inference of population structure using multilocus genotype data. Genetics 155: 945-959. •

123. Pritchard, J. K., and M. Przeworski, 2001 Linkage disequilibrium in humans: models and data. Am J Hum Genet 69: 1-14.

124. Prokopenko, I., C. Langenberg, J. C. Florez, R. Saxena, N. Soranzo et al., 2009 Variants in MTNR1B influence fasting glucose levels. Nat Genet 41: 77-81.

125. Purcell, S., B. Neale, K. Todd-Brown, L. Thomas, M. Ferreira et al, 2007a PLINK: a tool set for whole-genome association and population-based linkage analysis. Am J Hum Genet 81: 559-575.

126. Purcell, S., B. Neale, K. Todd-Brown, L. Thomas, M. A. Ferreira et al., 2007b PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet 81: 559-575.

127. Quesneville, H., and D. Anxolabehere, 1997 GENOOM: a simulation package for GENetic Object Oriented Modelling. Ann Hum Genet 61: 543.

128. Reich, D. E., S. F. Schaffner, M. J. Daly, G. McVean, J. C. Mullikin et al., 2002 Human genome sequence variation and the influence of gene history, mutation and recombination. Nat Genet 32: 135-142.

129. Rice, J. P., N. L. Saccone and E. Rasmussen, 2001 Definition of the phenotype. Adv Genet 42: 69-76.

130. Richards, J. B., F. K. Kavvoura, F. Rivadeneira, U. Styrkarsdottir, K. Estrada et al., 2009 Collaborative meta-analysis: associations of 150 candidate genes with osteoporosis and osteoporotic fracture. Ann Intern Med 151: 528-537.

131. Rivadeneira, F., U. Styrkarsdottir, K. Estrada, B. V. Halldorsson* Y. H. Hsu et al., 2009 Twenty bone-mineral-density loci identified by large-scale metaanalysis of genome-wide association studies. Nat Genet 41: 1199-1206.

132. Rudan, I., H. Campbell and P. Rudan, 1999 Genetic epidemiological studies ofeastern Adriatic Island isolates, Croatia: objective and strategies. Coll Antropol 23: 531-546.

133. Rudkowska, I., and P. Jones, 2008 Polymorphisms in ABCG5/G8 transporters linked to hypercholesterolemia and gallstone disease. Nutr Rev 66: 343-348.

134. Sabatti, C., S. K. Service, A. L. Hartikainen, A. Pouta, S. Ripatti et al., 2009 Genome-wide association analysis of metabolic traits in a birth cohort from a founder population. Nat Genet 41: 35-46.

135. Sabeti, P. C., P. Varilly, B. Fry, J. Lohmueller, E. Hostetter et al., 2007

136. Genome-wide detection and characterization of positive selection in human, populations. Nature 449: 913-918.

137. Sandhu, M. S., D. M. Waterworth, S. L. Debenham, E. Wheeler, K. Papadakis et al., 2008 LDL-cholesterol concentrations: a genome-wide association study. Lancet 371: 483-491.

138. Sanna, S., A. U. Jackson, R. Nagaraja, C. J. Willer, W.-M. Chen et al., 2008 Common variants in the GDF5-UQCC region are associated with variation in human height. Nat Genet 40: 198-203.

139. Schaid, D. J., 2002 Relative efficiency of ambiguous vs. directly measured haplotype frequencies. Genet Epidemiol 23: 426-443.

140. Schaid, D. J., S. K. McDonnell, L. Wang, J. M. Cunningham and S. N.

141. Thibodeau, 2002a Caution on pedigree haplotype inference with software that assumes linkage equilibrium. Am J Hum Genet 71: 992-995.

142. Schaid, D. J., C. M. Rowland, D. E. Tines, R. M. Jacobson and G. A. Poland, 2002b Score tests for association between traits and haplotypes when linkage phase is ambiguous. Am J Hum Genet 70: 425-434.

143. Scott, L., K. Mohlke, L. Bonnycastle, C. Willer, Y. Li et al., 2007 A genome-wide association study of type 2 diabetes in Finns detects multiple susceptibility variants. Science 316: 1341-1345.

144. Service, S., J. DeYoung, M. Karayiorgou, J. L. Roos, H. Pretorious et al., 2006 Magnitude and distribution of linkage disequilibrium in population isolates and implications for genome-wide association studies. Nat Genet 38: 556-560.

145. Service, S. K., R. A. Ophoff and N. B. Freimer, 2001 The genome-wide distribution of background linkage disequilibrium in a population isolate. Hum Mol Genet 10: 545-551.

146. Sladek, R., G. Rocheleau, J. Rung, C. Dina, L. Shen et al., 2007 A genome-wide association study identifies novel risk loci for type 2 diabetes. Nature 445: 881-885.

147. Slatkin, Mi, 2004 A population-genetic test of founder effects and implications for Ashkenazi Jewish diseases. Am J Hum Genet 75: 282-293.

148. Sobel, E., and K. Lange, 1996 Descent graphs in pedigree analysis: applications to haplotyping, location scores, and marker-sharing statistics. Am J Hum Genet 58: 1323-1337.

149. Steemers, F., W. Chang, G. Lee, D. Barker, R. Shen et al, 2006 Whole-genome genotyping with the single-base extension assay. Nat Methods 3: 31-33.

150. Steinthorsdottir, V., G. Thorleifsson, I. Reynisdottir, R. Benediktsson, T. jonsdottir et al, 2007 A variant in CDKAL1 influences insulin response and risk of type 2 diabetes. Nat Genet 39: 770-775.

151. Stumpf, M. P., and D. B. Goldstein, 2003 Demography, recombination hotspotintensity, and the block structure of linkage disequilibrium. Curr Biol 13: 1-8. '

152. Teare, M. D., A. M. Dunning, F. Durocher, G. Rennart and D. F. Easton, 2002 Sampling distribution of summary linkage disequilibrium measures. Ann Hum Genet 66: 223-233.

153. Tenesa, A., A. F. Wright, S. A. Knott, A. D. Carothers, C. Hayward et al., 2004 Extent of linkage disequilibrium in a Sardinian sub-isolate: sampling and methodological considerations. HumMol Genet 13: 25-33.

154. Tenesa, A., S. M. Farrington, J. G. D. Prendergast, M. E. Porteous, M.

155. WALKER et al., 2008 Genome-wide association scan identifies a colorectalcancer susceptibility locus on 1 lq23 and replicates risk loci at 8q24 and 18q21. Nat Genet 40: 631-637.

156. Terwilliger, J. D., and K. M. Weiss, 1998 Linkage disequilibrium mapping of complex disease: fantasy or reality? Curr Opin Biotechnol 9: 578-594.

157. Terwilliger, J. D., S. Zollner, M. Laan and S. Paabo, 1998 Mapping genes through the use of linkage disequilibrium generated by genetic drift: 'drift mapping' in small populations with no demographic expansion. Hum Hered 48: 138-154.

158. Thomas, D. C., R. W. Haile and D. Duggan, 2005 Recent developments ingenomewide association scans: a workshop summary and review. Am J Hum Genet 77: 337-345.

159. Thomas, G., K. B. Jacobs, M. Yeager, P. Kraft, S. Wacholder et al., 2008

160. Multiple loci identified in a genome-wide association study of prostate cancer. Nat Genet 40: 310-315.

161. Tunstall-Pedoe, H., K. Kuulasmaa, H. Tolonen, M. Davidson, S. Mendis et al., 2003 MONICA Monograph and Multimedia Sourcebook World Health Organization, Geneva.

162. Varilo, T., M. Laan, I. Hovatta, V. Wiebe, J. D. Terwilliger et al., 2000 Linkage disequilibrium in isolated populations: Finland and a young sub-population of Kuusamo. Eur J Hum Genet 8: 604-612.

163. Varilo, T., T. Paunio, A. Parker, M. Perola, J. Meyer et al., 2003 The interval of linkage disequilibrium (LD) detected with microsatellite and SNP markers in chromosomes of Finnish populations with different histories. Hum Mol Genet 12:51-59.

164. Vasan, R. S., N. L. Glazer, J. F. Felix, W. Lieb, P. S. Wild et al, 2009 Genetic variants associated with cardiac structure and function: a meta-analysis and replication of genome-wide association data. JAMA 302: 168-178.

165. Venter, J. C., M. D. Adams, E. W. Myers, P. W. Li, R. J. Mural et al., 2001 The sequence of the human genome. Science 291: 1304-1351.

166. Weedon, M., H. Lango, C. Lindgren, C. Wallace, D. Evans et al., 2008 Genome-wide association analysis identifies 20 loci that influence adult height. Nat Genet 40: 575-583.

167. Weedon, M. N., G. Lettre, R. M. Freathy, C. M. Lindgren, B. F. Voight et al.,2007 A common variant of HMGA2 is associated with adult and childhood height in the general population. Nat Genet 39: 1245-1250.

168. Wilson, P. W., R. B. D'Agostino, D. Levy, A. M. Belanger, H. Silbershatz et al., 1998 Prediction of coronary heart disease using risk factor categories. Circulation 97: 1837-1847.

169. Wright, A., B. Charlesworth, I. Rudan, A. Carothers and H. Campbell, 2003 A polygenic basis for late-onset disease. Trends Genet 19: 97-106.

170. Wright, A. F., A. D. Carothers and M. Pirastu, 1999 Population choice in mapping genes for complex diseases. Nat Genet 23: 397-404.

171. Wright, A. F., andN. D. Hastie, 2001 Complex genetic diseases: controversy over the Croesus code. Genome Biol 2: COMMENT2007.

172. Yu, J., G. Pressoir, W. H. Briggs, I. Vroh Bi, M. Yamasaki et al., 2006 A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. Nat Genet 38: 203-208.

173. Zapata, C., C. Carollo and S. Rodriguez, 2001 Sampling variance anddistribution of the D' measure of overall gametic disequilibrium between multiallelic loci. Ann Hum Genet 65: 395-406.

174. Zaykin, D., L. Zhivotovsky and B. S. Weir, 1995 Exact tests for association between alleles at arbitrary numbers of loci. Genetica 96: 169-178.

175. Zeggini, E., L. J. Scott, R. Saxena, B. F. Voight, J. L. Marchini et al., 2008 Metaanalysis of genome-wide association data and large-scale replication identifies additional susceptibility loci for type 2 diabetes. Nat Genet 40: 638-645.

176. Zollner, S., and J. K. Pritchard, 2005 Coalescent-based association mapping and fine mapping of complex trait loci. Genetics 169: 1071-1092.