Структура популяции (генетика) - Population structure (genetics)

Структура популяции (также называемая генетической структурой и стратификацией популяции ) - это наличие систематической разницы в частотах аллелей между субпопуляциями в популяции в результате неслучайного спаривания между особями. Это может указывать на генетическое происхождение , а в контексте медицинской генетики это важная смешивающая переменная в исследованиях полногеномных ассоциаций (GWAS).

Описание

Основная причина структуры популяции у видов, размножающихся половым путем, - это неслучайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает из-за физического разделения на расстояние или препятствия, такие как горы и реки, за которым следует генетический дрейф . Другие причины включают поток генов в результате миграций, узкие места и расширение популяции , эффекты основателя , эволюционное давление , случайность и (у людей) культурные факторы. Даже вместо этих факторов особи стремятся оставаться рядом с тем местом, где они родились, а это означает, что аллели не будут распределяться случайным образом по всему диапазону вида.

Меры

Структура населения - сложное явление, и не существует единой меры, которая может полностью его охватить. Понимание структуры населения требует сочетания методов и мер. Многие статистические методы полагаются на простые модели населения, чтобы вывести исторические демографические изменения, такие как наличие узких мест в населении, события примеси или время расхождения населения. Часто эти методы основываются на предположении о панмиктии или однородности в наследственной популяции. Неправильная спецификация таких моделей, например, из-за того, что не принимается во внимание наличие структуры в наследственной популяции, может привести к сильно смещенным оценкам параметров. Имитационные исследования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно неверно истолковать как исторические изменения в размере популяции или существование событий примеси, даже если таких событий не было.

Гетерозиготность

Узкое население может привести к потере гетерозиготности. В этой гипотетической популяции аллель стал фиксированным после того, как популяция неоднократно снижалась с 10 до 3.

Одним из результатов популяционной структуры является снижение гетерозиготности . Когда популяции разделяются, аллели имеют больше шансов на фиксацию внутри субпопуляций, особенно если субпопуляции невелики или были изолированы в течение длительных периодов времени. Это снижение гетерозиготности можно рассматривать как продолжение инбридинга , при котором особи в субпопуляциях с большей вероятностью имеют недавнего общего предка . Шкала важна - человек с обоими родителями, родившийся в Соединенном Королевстве, не является инбредным по отношению к населению этой страны, но является более инбредным, чем два человека, выбранных из всего мира. Это мотивирует вывод F- статистики Райта (также называемой «индексами фиксации»), которые измеряют инбридинг посредством наблюдаемой гетерозиготности в сравнении с ожидаемой. Например, измеряет коэффициент инбридинга в одном локусе для особи относительно некоторой субпопуляции :

Здесь - доля гетерозиготных особей в субпопуляции . Предполагая, что существует два аллеля, которые встречаются с соответствующими частотами , ожидается, что при случайном спаривании субпопуляция будет иметь степень гетерозиготности . Потом:

Точно так же для всей популяции мы можем определить, что позволяет нам вычислить ожидаемую гетерозиготность субпопуляции и значение как:

Если F равно 0, то частоты аллелей между популяциями идентичны, что свидетельствует об отсутствии структуры. Теоретическое максимальное значение 1 достигается, когда аллель достигает полной фиксации, но большинство наблюдаемых максимальных значений намного ниже. F ST является одним из наиболее распространенных показателей структуры популяции, и существует несколько различных формулировок в зависимости от количества популяций и представляющих интерес аллелей. Хотя он иногда используется как генетическая дистанция между популяциями, он не всегда удовлетворяет неравенству треугольника и, следовательно, не является метрикой . Это также зависит от разнообразия внутри населения, что затрудняет интерпретацию и сравнение.

Вывод о смеси

Генотип человека можно смоделировать как смесь между K дискретными кластерами популяций. Каждый кластер определяется частотами его генотипов, а вклад кластера в индивидуальные генотипы измеряется с помощью оценщика . В 2000 году Джонатан К. Притчард представил алгоритм STRUCTURE для оценки этих пропорций с помощью цепи Маркова Монте-Карло , моделируя частоты аллелей в каждом локусе с распределением Дирихле . С тех пор алгоритмы (такие как ADMIXTURE) были разработаны с использованием других методов оценки. Расчетные пропорции можно визуализировать с помощью гистограмм - каждая полоса представляет человека и подразделяется, чтобы представить долю генетического происхождения человека от одной из K популяций.

Варьируя K, можно проиллюстрировать различные масштабы структуры населения; использование маленького K для всей человеческой популяции разделит людей примерно по континентам, в то время как использование большого K разделит популяции на более тонкие подгруппы. Хотя методы кластеризации популярны, они открыты для неверной интерпретации: для немоделированных данных никогда не существует «истинного» значения K , а скорее приближение, которое считается полезным для данного вопроса. Они чувствительны к стратегиям выборки, размеру выборки и близким родственникам в наборах данных; дискретных популяций может вообще не быть; и может быть иерархическая структура, в которой субпопуляции вложены. Кластеры могут быть смешаны сами по себе и могут не иметь полезной интерпретации в качестве исходных популяций.

Исследование популяционной структуры людей в Северной Африке и соседних популяциях, смоделированных с использованием ADMIXTURE и допущения K = 2,4,6,8 популяций (рисунок B, сверху вниз). Изменение K изменяет масштаб кластеризации. При K = 2 80% предполагаемого происхождения большинства жителей Северной Африки отнесены к кластеру, который является общим для баскских, тосканских и катарских арабов (выделен фиолетовым цветом). При K = 4 появляются клины североафриканского происхождения (светло-голубые). При K = 6 появляются противоположные клины ближневосточного (катарского) происхождения (зеленым цветом). При K = 8 тунисские берберы отображаются в виде кластера (темно-синим цветом).

Снижение размерности

Карта расположения генетических образцов нескольких африканских популяций (слева) и основные компоненты 1 и 2 данных, наложенные на карту (справа). Главная координатная плоскость повернута на 16,11 ° для совмещения с картой. Это соответствует распределению популяций с востока на запад и с севера на юг.

Генетические данные имеют высокую размерность, и методы уменьшения размерности могут фиксировать структуру популяции. Анализ главных компонентов (PCA) был впервые применен в популяционной генетике в 1978 году Кавалли-Сфорца и его коллегами и возродился благодаря высокопроизводительному секвенированию . Первоначально PCA использовался для определения частот аллелей известных генетических маркеров для популяций, хотя позже было обнаружено, что, кодируя SNP как целые числа (например, как количество нереференсных аллелей ) и нормализуя значения, PCA можно применять на уровне лиц. В одной формулировке учитываются индивидуумы и биаллельные SNP. Для каждого человека значение в локусе - это количество нереференсных аллелей (один из ). Если частота аллеля равна , то итоговая матрица нормализованных генотипов содержит записи:

PCA преобразует данные для максимального увеличения дисперсии; при наличии достаточного количества данных, когда каждый человек отображается в виде точки на графике, могут образовываться дискретные кластеры. Лица со смешанным происхождением будут иметь тенденцию попадать между кластерами, и когда в данных наблюдается однородная изоляция по расстоянию , верхние векторы ПК будут отражать географические вариации. Собственные векторы, сгенерированные с помощью PCA, могут быть явно записаны в терминах среднего времени слияния для пар индивидов, что делает PCA полезным для вывода об истории популяции групп в данной выборке. Однако PCA не может различать разные процессы, которые приводят к одинаковому среднему времени слияния.

Многомерное масштабирование и дискриминантный анализ использовались для изучения дифференциации, распределения популяций и анализа генетических расстояний. Подходы на основе графа соседства, такие как t-распределенное стохастическое встраивание соседей (t-SNE) и аппроксимация и проекция однородного многообразия (UMAP), могут визуализировать континентальную и субконтинентальную структуру в человеческих данных. С более крупными наборами данных UMAP лучше фиксирует несколько масштабов структуры населения; мелкомасштабные модели могут быть скрыты или разделены с помощью других методов, и они представляют интерес, когда диапазон популяций разнообразен, когда есть смешанные популяции или при изучении взаимосвязей между генотипами, фенотипами и / или географией. Вариационные автоэнкодеры могут генерировать искусственные генотипы со структурой, представляющей входные данные, хотя они не воссоздают паттерны неравновесия по сцеплению.

Демографический вывод

Структура популяции - важный аспект эволюционной и популяционной генетики . Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. В смешанных популяциях будут фрагменты гаплотипов их предковых групп, которые со временем постепенно уменьшаются из-за рекомбинации . Используя этот факт и сопоставляя общие гаплотипы отдельных людей в наборе генетических данных, исследователи могут отслеживать и датировать происхождение смешения населения и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения.

Роль в генетической эпидемиологии

Популяционная структура может быть проблемой для ассоциативных исследований , таких как исследования случай-контроль , когда ассоциация между интересующим признаком и локусом может быть неверной. Например, в исследовании населения европейцев и выходцев из Восточной Азии ассоциативное исследование использования палочек для еды может «обнаружить» у азиатских индивидов ген, который приводит к употреблению палочек для еды. Однако это ложная связь, поскольку генетический вариант просто более распространен у азиатов, чем у европейцев. Кроме того, фактические генетические данные могут быть упущены из виду, если локус менее распространен в популяции, в которой выбираются пациенты. По этой причине в 1990-е годы было обычным делом использовать семейные данные, где влияние структуры популяции можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT).

Фенотипы (измеримые признаки), такие как рост или риск сердечных заболеваний, являются продуктом некоторой комбинации генов и окружающей среды . Эти признаки можно предсказать с помощью полигенных оценок , которые стремятся изолировать и оценить вклад генетики в признак, суммируя эффекты многих отдельных генетических вариантов. Чтобы получить оценку, исследователи сначала привлекают участников к ассоциативному исследованию, чтобы оценить вклад каждого генетического варианта. Затем они могут использовать предполагаемый вклад каждого генетического варианта для расчета оценки признака для человека, который не участвовал в первоначальном исследовании ассоциации. Если структура исследуемой популяции коррелирует с изменчивостью окружающей среды, то полигенный показатель больше не измеряет только генетический компонент.

Некоторые методы могут, по крайней мере, частично контролировать этот мешающий эффект. Метод геномного контроля был введен в 1999 году и представляет собой относительно непараметрический метод контроля над раздуванием тестовой статистики . Также можно использовать несвязанные генетические маркеры для оценки пропорций предков каждого индивидуума из некоторых субпопуляций K , которые, как предполагается, неструктурированы. Более поздние подходы используют анализ главных компонентов (PCA), как продемонстрировали Алкес Прайс и его коллеги, или путем получения матрицы генетических отношений (также называемой матрицей родства) и включения ее в линейную смешанную модель (LMM).

PCA и LMM стали наиболее распространенными методами контроля за искажением структуры популяции. Хотя они, вероятно, достаточны для избежания ложноположительных результатов в ассоциативных исследованиях, они по-прежнему уязвимы для переоценки величины эффекта незначительно связанных вариантов и могут существенно смещать оценки полигенных оценок и наследуемости признаков . Если воздействие на окружающую среду связано с вариантом, который существует только в одном конкретном регионе (например, загрязнитель обнаружен только в одном городе), возможно, вообще невозможно будет исправить этот эффект структуры населения. Для многих черт роль структуры сложна и не до конца понятна, и включение ее в генетические исследования остается проблемой и является активной областью исследований.

использованная литература