что значит секвенировать геном

Секвенирование геномов для «чайников»

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геномГеномика: постановка задачи и методы секвенирования

Сергей Николенко, кандидат физико-математических наук, старший научный сотрудник лаборатории вычислительной биологии Санкт-Петербургского Академического Университета в серии статей говорит о некоторых задачах биоинформатики, связанных со сборкой и анализом геномов, делая акцент на математической, комбинаторной постановке задачи. В данном, вводном, тексте речь идет о том, как выглядят входные данные для сборки геномов и как их получают.

Как выглядит молекула ДНК?

Начнем с того, как выглядит молекула ДНК. Молекулы полимеров характеризуются первичной структурой, под которой понимается просто состав молекулы (в данном случае – последовательность букв A, C, G и T, которые и составляют геном), вторичной структурой, т.е. тем, какие именно химические связи устанавливаются между этими компонентами и какие в результате получаются базовые пространственные структуры (в данном случае – двойная спираль), и третичной структурой, т.е. тем, как вторичная структура «уложена» в пространстве. Вторичная структура ДНК представляет собой двойную спираль, состоящую из четырёх разных нуклеотидов.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок из Википедии

Нуклеотиды обозначаются по содержащимся в них азотистым основаниям: аденину (A), цитозину (C), гуанину (G) и тимину (T) (есть ещё урацил, который в РНК заменяет тимин), и в дальнейшем мы всегда будем пользоваться этими буквами. В двойной спирали эти нуклеотиды связаны друг с другом водородными связями, и связь устанавливается по принципу комплементарности: если в одной нити ДНК стоит A, то в комплементарной нити будет T, а если в одной нити C, то в другой будет G. Именно это позволяет относительно просто проводить репликацию (копирование) ДНК, например, при делении клетки: для этого достаточно просто разорвать водородные связи, разделив двойную спираль на нити, после чего парная нить для каждого «потомка» автоматически соберётся правильно. Важно понять, что ДНК – это две копии одного и того же «текста» из четырёх «букв»; «буквы» в копиях не идентичны, но однозначно соответствуют друг другу. Например:

Было бы, конечно, удобно, если бы нам удалось аккуратно «вытянуть» одну нить ДНК и спокойно, нуклеотид за нуклеотидом, «прочесть» эту нить от начала до конца. При таком, идеальном, методе секвенирования (чтения ДНК) никаких хитрых алгоритмов не понадобилось бы. К сожалению, на данном этапе такое невозможно, и приходится довольствоваться результатами того секвенирования, которое есть.

Что такое секвенирование?

Секвенирование (sequencing) – это общее название методов, которые позволяют установить последовательность нуклеотидов в молекуле ДНК. В настоящее время нет ни одного метода секвенирования, который бы работал для молекулы ДНК целиком; все они устроены так: сначала готовится большое число небольших участков ДНК (клонируется молекула ДНК многократно и «разрезается» в случайных местах), а потом читается каждый участок по отдельности.

Клонирование происходит либо просто выращиванием клеток в чашке Петри, либо (в случаях, когда это было бы слишком медленно или по каким-то причинам не получилось бы) при помощи так называемой полимеразной цепной реакции. В кратком и неточном изложении работает она примерно так: сначала ДНК денатурируют, т.е. разрушают водородные связи, получая отдельные нити. Затем к ДНК присоединяют так называемые праймеры; это короткие участки ДНК, к которым может присоединиться ДНК-полимераза – соединение, которое, собственно, и занимается копированием (репликацией) нити ДНК.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок из Википедии

На следующем этапе полимераза копирует ДНК, после чего процесс можно повторять: после новой денатурации отдельных нитей будет уже вдвое больше, на третьем цикле – вчетверо, и так далее.

Все эти эффекты достигаются в основном с помощью изменений температуры смеси из ДНК, праймеров и полимеразы; для наших целей важно, что это достаточно точный процесс, и ошибки в нём редки, а на выходе получается большое число копий участков одной и той же ДНК. Разные методы секвенирования отличаются друг от друга не методами клонирования, а тем, как потом прочесть получившийся «суп» из многочисленных копий одной и той же ДНК.

Секвенирование по Сэнгеру

Первым методом секвенирования, который учёные сумели применить для обработки целых геномов (в том числе генома человека), стало секвенирование по Сэнгеру (Sanger sequencing). Смысл таков: участок ДНК клонируется, после чего полученная смесь делится на четыре части. Каждая часть помещается в активную среду, где присутствуют:

Собственно, процесс практически идентичен клонированию ДНК, с которым мы встретились в предыдущем разделе. Разница только в том, что теперь в один из нуклеотидов подмешаны «ложные» нуклеотиды; они могут образовать точно такую же водородную связь, но не могут продолжить свою нить дальше.

В результате в каждой части образуется большое число копий префиксов исследуемого участка ДНК, которые имеют разную длину, но всегда заканчиваются на одну и ту же букву – в зависимости от того, когда повезёт взять в процесс клонирования «ложный» нуклеотид. Например, в пробирке, где все последовательности заканчиваются на Т, из нашего примера выше получилась бы смесь из следующих префиксов:

ATGCAGAACAGACGATCAGCGACACTTTA (образец)
AT
ATGCAGAACAGACGAT
ATGCAGAACAGACGATCAGCGACACT
ATGCAGAACAGACGATCAGCGACACTT
ATGCAGAACAGACGATCAGCGACACTTT

Как теперь, получив такую смесь, «прочесть» геномную последовательность? Заметим, что в сумме в четырёх пробирках мы получили все возможные префиксы интересующего нас участка. Это значит, что если мы сможем просто измерить длину каждого префикса (точнее говоря, даже не измерить, а просто упорядочить, узнав, кто из них длиннее), то мы сможем узнать и последовательность тоже. Предположим, что мы увидели, что в пробирках лежат префиксы вот такой длины (по порядку, от самого лёгкого 1 до самого тяжёлого 10):A C G T
1, 5, 7, 8, 10 4, 9 3, 6 2

Очевидно, что эта последовательность начинается с А (т.к. самый лёгкий префикс, из одной буквы, заканчивается на A); дальше идёт C, дальше опять A, и так далее. В результате можно прочесть исходный участок: ATGCAGAACA.

А чтобы измерить длину, можно, например, измерить массу всех префиксов во всех пробирках. Чтобы измерить массу, можно, например (разные секвенаторы использовали разные процедуры, но суть от этого не меняется), ионизировать эти молекулы и отправить их наперегонки к заряженному электроду в специальном геле, который создаст трение и замедлит продвижение молекул – этот метод называется электрофорезом. При одинаковом заряде более тяжёлые молекулы будут двигаться медленнее, и в результате получится примерно такая картинка.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок из Википедии

Видно, что (в идеальном случае) можно просто прочесть последовательность нуклеотидов от самого лёгкого префикса (т.е. префикса из одной буквы) к самому тяжёлому.

Результаты и ошибки сэнгеровского секвенирования

На выходе из сэнгеровского секвенатора получаются короткие участки ДНК, так называемые риды (reads). Для биоинформатики принципиальны две вещи: во-первых, какой длины получаются риды, во-вторых, какие в них могут быть ошибки и как часто (разумеется, на свете нет ничего идеального).

Сэнгеровские риды по этим критериям очень хороши: получаются риды длиной около тысячи нуклеотидов, причём качество начинает заметно падать только после 700-800 нуклеотидов. Сам процесс секвенирования по Сэнгеру, с которым мы познакомились в предыдущем разделе, предопределяет и эффект падения качества (труднее отличить молекулу массой 700 от молекулы массой 701, чем массу 5 от массы 6), и другой неприятный эффект – если в геноме встречается длинная последовательность из одной и той же буквы (…AAAAAAAA…), трудно бывает точно определить, какой она длины – все промежуточные массы попадут в одну и ту же пробирку, некоторые из них могут не встретиться, некоторые слиться друг с другом и т.д. Но всё же сэнгеровское секвенирование даёт отличные результаты с достаточно длинными ридами, которые потом относительно легко собирать. О том, как это делается, мы будем говорить в последующих текстах.

Именно при помощи сэнгеровского секвенирования был впервые расшифрован геном человека. Секвенирование по Сэнгеру применяется и сегодня, но его всё активнее вытесняют другие методы, и применяется оно всё реже. Кому же и почему оно уступило свои позиции?

Секвенаторы второго поколения: Illumina

Современные секвенаторы – это так называемые секвенаторы второго поколения (SGS, second generation sequencing). В них участки ДНК по-прежнему многократно клонируются, но процесс чтения устроен не так, как у Сэнгера. Существует много разных методов, отличающихся довольно существенно, поэтому мы рассмотрим только один из них, один из самых популярных на сегодня – секвенирование по методу Solexa (ныне Illumina; в смене названия не нужно искать глубокий смысл, просто одна компания купила другую).

Процесс секвенирования Illumina проиллюстрирован на рисунке; кроме того, можно посмотреть один из нескольких существующих видеороликов с анимацией этого процесса – в данном случае, действительно, лучше один раз увидеть, чем сто раз прочесть текст. Однако краткие комментарии тоже пригодятся; вот как происходит процесс секвенирования по методу Illumina.

В результате на каждом цикле мы прочитываем одновременно очень большое число нуклеотидов из разных последовательностей. Но за это приходится платить тем, что участки ДНК, которые мы можем прочесть, оказываются гораздо короче, чем в случае секвенирования по Сэнгеру – риды Illumina обычно получаются длиной около 100 нуклеотидов.

Парные риды и постановка задачи

Есть ещё одна важная деталь. Участки ДНК «присасываются» к подложке обоими концами, причём мы можем узнать, какие последовательности соответствуют одному и тому же участку. Это значит, что в реальности мы читаем один и тот же участок, длина которого нам приблизительно известна, сразу с двух сторон. В результате данные получаются примерно такого вида:

причём расстояние между известными строчками (число вопросительных знаков) известно не совсем точно. В зависимости от технологии, можно получить как очень длинные неизвестные фрагменты (около 1000 нуклеотидов), «обрамлённые» двумя ридами длины 100, так и короткие фрагменты, в которых неизвестны буквально два-три десятка нуклеотидов между ридами. И те, и другие могут очень помочь в сборке, и об этом мы тоже будем говорить в следующих сериях.

Итак, теперь мы можем формально поставить задачу сборки геномов. Она звучит так: по большому числу подстрок небольшой длины восстановить исходную длинную строку в алфавите из букв A, C, G, T. В случае секвенирования по методу Illumina – по большому числу пар коротких подстрок, разделённых в исходной строке приблизительно известным расстоянием. Поставив эту задачу, мы можем забыть про биологию, химию и медицину – перед нами чисто алгоритмическая задача. Однако, прежде чем перейти к математике, сделаем ещё несколько замечаний.

Ошибки и показатели качества в секвенаторах второго поколения

Как мы уже знаем, секвенирование всегда содержит ошибки. В секвенаторах Illumina и аналогичных ошибки, как правило, происходят на фазе, когда нужно распознать помеченные нуклеотиды, т.е. понять, каким цветом и с какой силой светятся кластеры из многократно клонированных участков ДНК. На рисунке – типичный пример такой фотографии, порождённой секвенатором Illumina.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок с сайта medicine.yale.edu

Проблема здесь заключается в том, что из-за неидеальности остальных этапов процесса кластеры никогда не светятся только одним цветом; это всегда смесь всех четырёх цветов с той или иной интенсивностью. Нужно выделить наиболее интенсивную компоненту и оценить, насколько вероятна ошибка в этой букве; эта задача называется base calling (распознавание нуклеотидов). Base calling – это целая наука, в подробности которой мы сейчас вдаваться не будем.

Для нас сейчас важно, что в результате каждому нуклеотиду каждого рида секвенатор ставит в соответствие вероятность того, что этот нуклеотид был распознан правильно. Эти вероятности тоже можно использовать при сборке, и секвенаторы выдают их вместе с собственно ридами.

В итоге типичный рид в так называемом fastq-формате, стандартном для секвенаторов второго поколения, выглядит примерно так:

@EAS20_8_6_1_3_25/1
GCAAAAAACTTACCCCGGAACAGGCCGAGCAGATCAAAACGCTACTGCAATACAGACCATCAAGCACCAACTCCCNNNCGTAGNNNNNNTATGTTNNNNG
+EAS20_8_6_1_3_25/1
HHHHHHHGHHHHHHHHHHHHHHHHHHHHEHHHHHHHHEGHHHHGHHGHEFD?A=A&FFBB>&::===@&@E@E>A#########################

Первая и третья строки содержат имя рида; вторая строка – сама последовательность нуклеотидов. Обратим внимание, что среди букв A, C, G, T встречаются и буквы N – это значит, что секвенатор не смог однозначно определить, какой здесь был нуклеотид, и сдался. А четвёртая строка кодирует, в логарифмическом масштабе, вероятности того, что тот или иной нуклеотид распознан правильно; например, H здесь соответствует вероятности ошибки около одной десятитысячной. Как правило, качество ухудшается к концу рида; в нашем примере, как видите, хвост рида и вовсе не удалось сколь-нибудь надёжно прочитать.

Другие методы секвенирования

Хотя мы подробнее всего рассмотрели секвенатор Illumina (Solexa), на самом деле на этом методе свет клином не сошёлся. Есть и другие секвенаторы второго поколения, с другими свойствами.

В секвенировании лигированием (sequencing by ligation) на фазе, когда уже нужно распознавать нуклеотиды, используют не ДНК-полимеразу и процесс репликации, а специальные короткие «зонды», которые присоединяются к комплементарным нуклеотидам, фиксируются, затем вымываются, и процесс повторяется снова. Так устроен секвенатор SOLiD от Applied Biosystems.

Пиросеквенирование (pyrosequencing) основано на хемилюминесцентных сигналах, которые подают специально модифицированные нуклеотиды, когда соединяются с комплементарным нуклеотидом в прочитываемой нити ДНК; на этом принципе работает, например, секвенатор 454 от 454 Life Sciences.

Принцип работы секвенатора PacBio (от Pacific Biosciences) очень похож на принцип работы Illumina, но у него по-другому устроен метод детектирования – специальные «решётки» позволяют уловить сигналы от отдельных молекул (метод получил название SMRT, single molecule real time sequencing). Это позволяет ускорить процесс, уместить больше ридов на одной подложке (нужно меньше клонировать ДНК, не нужно выращивать большие кластеры) и существенно увеличить длину надёжно прочитываемых ридов.

Недавно появившийся метод ионного полупроводникового секвенирования (на нём основан секвенатор IonTorrent) вместо всего этого просто детектирует соединения (ионы), которые выделяются при присоединении нового нуклеотида к нити ДНК. Это позволяет радикально сократить время и стоимость получаемых ридов, хотя процент ошибок становится больше, и больше становится ошибок в фрагментах из повторяющейся одной буквы.

Человеческая мысль не стоит на месте: методы секвенирования постоянно улучшаются. Однако практически все современные методы выдают относительно короткие риды, от 100 до 400 нуклеотидов; в этом цикле мы будем в основном говорить о том, как собирать именно короткие риды.

Sanger или Illumina?

Человеческий геном был впервые собран на сэнгеровских секвенаторах, причём алгоритмическая сторона того проекта была проработана гораздо меньше, чем сейчас, десять лет спустя. Алгоритмы, которыми собирали первый человеческий геном, значительно проще тех, о которых мы будем говорить в дальнейшем. Однако первый геном всё-таки собрали; может быть, весь алгоритмический прогресс – это никому не нужный миф, и вполне хватило бы старых программ?

Невероятно, но факт: «старые» секвенаторы (первого поколения, сэнгеровские) выдают значительно более подходящие для сборки данные, чем «новые» (второго поколения). Это в основном выражается в длине ридов (reads), тех участков ДНК, которые удаётся последовательно прочесть, и которые, собственно, и нужно собрать в одну большую строчку. Секвенаторы первого поколения выдавали риды длиной более пятисот нуклеотидов, обычно около тысячи. Современные секвенаторы выдают пары ридов, каждый из которых имеет длину около ста нуклеотидов.

На таком уровне становится важной и цена алгоритмической стороны вопроса. Чтобы сборка геномов не занимала дольше и не стоила дороже, чем само их секвенирование, нужно разработать очень быстрые алгоритмы для решения задачи сборки. Об этом пойдет речь в следующей статье.

Источник

Что такое Полный геном и зачем он нужен

Атлас запустил новый продукт — Полный геном. Теперь мы можем исследовать не только отдельные точки в геноме, как в генетическом тесте, но и прочитать всю последовательность нуклеотидов генома. В этой статье рассказываем, что это и зачем это нужно.

Внимание! Мы подарим Полный геном одному из наших читателей, кто выполнит все задания. Подробнее — в конце статьи.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном

Что значит Полный геном?

Чтобы разобраться с полным геномом или полногеномным секвенированием (whole genome sequencing, WGS), мы сначала расскажем коротко о технологии обычного генетического теста.

Микрочип и обычный генетический тест

Генетический тест «Атлас», как и многие подобные тесты, делают с помощью ДНК-микрочипа (DNA-microarray, Beadchip). Поверхность ДНК-микрочипа содержит множество небольших углублений (порядка 700 тысяч), в каждом из которых находится по кремниевому шарику диаметром около 3 микрометров. На поверхности этого шарика находятся сотни тысяч сшитых с ним идентичных коротких последовательностей одноцепочечной ДНК, соответствующих участку генома человека, расположенному рядом с исследуемой вариацией (снип, SNV). Каждый шарик соответствует только одной генетической вариации, а координаты лунки на чипе для каждого шарика известны (Рисунок 2D).

Образовательный блок 1
Снип или SNV (Single Nucleotide Varition) — генетическая вариация, то есть изменение последовательности ДНК только в одном нуклеотиде. Например, на участке гена Х в определенной позиции может существовать один из трех нуклеотидов (аллелей) A, G или T, а в остальной части последовательности у разных людей нуклеотиды идентичны (Рисунок 1). От этой одной буквы может зависеть определенная особенность человека.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок 1 Автор иллюстраций Rentonorama

Например, полиморфизм rs4481887, который находится на первой хромосоме рядом с геном обонятельного рецептора OR2M7, имеет три аллеля: A, G и T. Наличие аллеля А на одной или на обеих хромосомах (генотипы A/G, A/T и A/A) определяет чувствительность к запаху мочи после употребления спаржи. При отсутствии аллеля А человек даже не будет догадываться о том, что после поедания спаржи с мочой выделяется вещество с характерным запахом.

Индел или INDEL (Insertion/Deletion) — другой тип генетических вариаций, в который относят удаление или вставку одного или нескольких нуклеотидов. Снипы и инделы вместе, наряду с возможными структурными изменениями: большими делециями, инсерциями, транслокациями, инверсиями, являются фактической разницей в геноме разных людей.

При сдаче генетического теста «Атлас» из слюны выделяют геномную и митохондриальную ДНК, увеличивают количество ее копий (амплифицируют) и фрагментируют — нарезают на небольшие отрезки (Рисунок 2А). Многочисленные одноцепочечные фрагменты человеческой ДНК соединяются с соответствующими им последовательностями на кремниевых шариках (Рисунок 2В), после чего происходит удлинение этих последовательностей на 1 искусственный флюоресцирующий нуклеотид (Рисунок 2С). Разные нуклеотиды светятся разными цветами: красным и зеленым. По соотношению интенсивностей свечения каждого цвета (Рисунок 2E) можно определить генотип, который соответствует шарику.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок 2

После сканирования всего чипа мы получаем около 700 тысяч генотипов вариаций и пропускаем их через нашу систему интерпретации. Часто пользователи пытаются сравнить результаты разных тестов, но замечают сильную разницу. Это происходит по нескольким причинам. Во-первых, разные компании используют разные версии чипов и наборы SNV. Как следствие, на одних чипах существуют уникальные наборы вариаций, которые нельзя найти на других чипах. Во-вторых, всегда существует ошибка генотипирования, которая может возникнуть по разным причинам, хотя она вносит наименьший вклад в различие результатов. Данные исследований показывают, что точность генотипирования на ДНК-микрочипах, которые использует Атлас, выше 99,5%. Но основная причина отличий результатов генетических тестов в интерпретации: разные компании делают ее по-разному даже для одинаковых исходных данных генотипирования.

Что такое полногеномное секвенирование?

Главное отличие полногеномного секвенирования от генотипирования на микрочипах — технология и обработка получаемых данных. При полногеномном секвенировании определяется почти вся последовательность ДНК. Почти — потому, что в геноме существуют участки, которые в силу различных причин невозможно прочитать. Часто это участки теломер и центромер — концов и центра хромосом. Для определения последовательностей подобных регионов генома используют малодоступные узкоспециализированные технологии. Такие исследования носят в основном исследовательский характер.

Определение последовательности ДНК позволяет узнать генотипы вариаций в любом месте генома, включая исследуемые вариации на ДНК микрочипе в генетическом тесте «Атлас». Для быстрого и эффективного определения последовательности генома используется технология NGS (next generation sequencing, секвенирование следующего поколения). Существует несколько принципиально отличающихся методов, созданных разными компаниями.

Суть метода Атласа заключается в следующем: выделенную и очищенную ДНК многократно амплифицируют и фрагментируют до определенной длины. К каждому фрагменту пришиваются специальные последовательности, которые позволяют управлять данным фрагментом. Прочитываются, именно эти обработанные фрагменты (Рисунок 3).

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок 3. Процесс пошагового секвенирования: каждый следующий нуклеотид флуоресцирует в уникальном для него цветовом канале.

На каждом шаге происходит удлинение на один нуклеотид, с которым связан флуоресцентный зонд. Каждый из четырех нуклеотидов связан с зондом определенного цвета. Таким образом, шаг за шагом по цвету свечения можно определить порядок нуклеотидов в исследуемом фрагменте. Полученные последовательности каждого фрагмента называются прочтениями или ридами (reads), и их получается около 1 миллиарда на каждый образец исследуемой ДНК. Риды и показатели качества их прочтения хранятся в текстовом формате FASTQ.

Далее риды выравниваются (картируются) на референсный геном. С использованием специального программного обеспечения, например Burrows-Wheeler aligner, для каждого рида происходит поиск места на референсном геноме, которому он соответствует. Прочтение вместе с информацией о положении в геноме записывается в файл формата SAM или BAM. Визуализация картированных на геном ридов в SAM (BAM) файле с помощью геномного браузера IGV показана на Рисунке 4.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок 4. Визуализация BAM файла в программе IGV (участок хромосомы одного человека). Картированные риды обозначены горизонтальными блоками, позиция указана в треке сверху.

На рисунке также видно, что такое глубина прочтения (depth of coverage) — когда, любую позицию в референсном геноме покрывает несколько выровненных ридов. Значение усредняется по всему геному и используется как показатель качества исследования. Атлас гарантирует среднее покрытие генома глубиной выше 30, что обеспечивает высокое качество генотипирования. Увеличение глубины прочтения значительно увеличивает стоимость секвенирования, точность определения генетических вариаций и используется в узких онкологических исследованиях, например, в Атлас Онкодиагностике.

Образовательный блок 2
Референсный геном — это искусственно собранная последовательность ДНК биологического вида. Большинство последовательностей, из которых собран референсный геном человека, были взяты у одного человека Африкано-Европейского происхождения. Референсный геном регулярно обновляется: последняя версия, GRCh38, была выпущена в 2013 году и содержит в себе 3,3 млрд нуклеотидов. Несмотря на доступность новой версии, многие генетические тесты и сервисы по анализу генетических данных используют предыдущую — GRCh37. Для предоставления наиболее точных результатов анализа Атлас использует версию GRCh38.

Полученные после картирования файлы (SAM-файлы, sequencing alignment map, или в бинарном виде BAM — binary alignment map) фильтруются и используются для поиска вариаций в геноме, включая как однонуклеотидные вариации, так и короткие инсерции и делеции. Наличие однонуклеотидного варианта на хромосоме 1 в позиции 248333561 (приведенный ранее пример rs4481887 — вариант, определяющий чувствительность к запаху мочи после употребления спаржи) показано на Рисунке 5.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Рисунок 5. Визуализация BAM файла в программе IGV. Участок хромосомы 1. В позиции 248333561 находится полиморфизм rs4481887: нуклеотид в данной позиции не соответствует референсному геному и выделен цветом. Во всех ридах, которые покрывают данный участок генома, присутствует нуклеоид G, что говорит о гомозиготности генотипа. У человека с такими результатами секвенирования будет генотип G/G и нечувствительность к запаху мочи после употребления спаржи.

Найденные генетические вариации хранятся в VCF файле (variant call format). Он содержит обнаруженные аллели для каждой позиции генома, а также показатели качества генотипирования. VCF файл фильтруется: из него удаляются записи о наличии/отсутствии вариаций, которые не соответствуют порогам качества и являются потенциально ложными. Каждой найденной вариации присваиваются известные по ней данные из dbSNP, в частности, уникальные идентификаторы rsID.

Подробно ознакомиться со спецификой форматов хранения данных секвенирования и генотипирования можно по следующим ссылкам:
FASTQ — maq.sourceforge.net
SAM — samtools.github.io
VCF — samtools.github.io

Для визуализации картирования ридов (SAM или BAM файлов) используется различное программное обеспечение. Наиболее популярным является IGV (Integrative Genomics Viewer от Broad Institute). Загрузить IGV и ознакомиться с ним можно по ссылке.

Какие данные интерпретирует Атлас?

Полный геном содержит данные по тем вариантам генов, которые есть в генетическом тесте «Атлас», а также по признакам, которые нельзя подсчитать с помощью технологии генотипирования с использованием ДНК-микрочипов. Например, к таким признакам относятся риски онкологических заболеваний.

Здоровье

383 Наследственных заболеваний
Основной акцент всех тестов Атласа — раздел здоровье, и наш новый тест «Полный геном» не стал исключением. К признакам нашего основного теста мы добавили еще 65 наследственных заболеваний.

К наследственным или моногенным заболеваниям относятся болезни, которые передаются от родителей детям и на развитие которых не влияет образ жизни человека. Для развития такого заболевания достаточно мутации от одного или от обоих родителей в зависимости от типа наследования заболевания.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном

21 Многофакторное заболевание
На развитие многофакторных заболеваний влияют гены, образ жизни и факторы окружающей среды. К таким болезням относятся, например, сахарный диабет, ожирение, болезнь Паркинсона и Альцгеймера, атопический дерматит. В личном кабинете пользователю доступен расчет относительного риска развития заболевания на основе данных теста и опросника об образе жизни.

6 других признаков, связанных со здоровьем
Здесь мы собрали признаки, которые влияют на образ жизни человека. Например, продолжительность сна, хронотип, синдром хронической усталости, боязнь боли.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном

Клиническая генетика

43 Онкологических риска
Благодаря тому, что в полном геноме исследуется больше вариантов генов, мы получаем больше данных и можем оценить риски развития онкологических заболеваний. По результатам теста мы оцениваем предрасположенность к наследственным онкологическим синдромам.

Наследственные онкологические синдромы — генетические заболевания, которые могут передаваться в семье из поколения в поколение и повышать риски некоторых видов рака. Около 10% случаев онкологии имеют наследственную природу.

Поиск наследственных онкологических синдромов полезен в первую очередь тем, у кого в семье были случаи рака. На наследственную природу может указывать ранний возраст начала болезни (до 50 лет), наличие нескольких родственников по одной линии с одинаковым диагнозом, редкие формы рака. На основе результатов теста врач определит объем дополнительных исследований и составит персональную программу управления онкологическими рисками. Узнайте больше о том, как развиваются злокачественные образования, можно в нашей серии статей.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном

53 Показателей восприимчивости к активным компонентам лекарств
Каждый человек по разному реагирует на лекарства: у одних препарат действует хорошо, другие страдают от тяжелый побочных эффектов, а у третьих лечение оказывается неэффективным. В некоторых случаях это обусловлено работой генов, которые влияют на метаболизм активных веществ и риски побочных реакций.

Например, препарат Омепразол снижает секрецию соляной кислоты в желудке. Используется при лечении язвенной болезни желудка и двенадцатиперстной кишки, рефлюксной болезни. Ген CYP2C19 кодирует фермент, который отвечает за метаболизм омепразола. Поэтому, в зависимости от вариантов гена, необходимо корректировать дозу омепразола или использовать альтернативное лекарственное средство.

В тесте мы исследуем варианты генов, связанные с особенностями метаболизма 53 препаратов. Среди них есть антидепрессанты, гормональные контрацептивы, препарат для снижения свертываемости крови и некоторые другие.

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном

Специализированный отчет по наследственным заболеваниям
Отчет — заключение Лаборатории клинической биоинформатики Федора Коновалова. Биоинформатики лаборатории ищут носительство рецессивных заболеваний. Такое носительство чаще всего не влияет на здоровье человека, но у его будущих детей оно может привести к заболеванию. Также лаборатория может выявить уникальную, нигде ранее не описанную мутацию и дать по ней заключение, является ли она вероятно патогенной.

Эксперты проводят тщательный анализ актуальной научной информации о мутациях и заболеваниях в каждом конкретном случае. В заключении содержится вся необходимая информация для врача-генетика. С этим отчетом вы сможете обратиться к профильному специалисту в случае необходимости.

Такие генетические отчеты похожи на юридический документ с обилием сложных терминов, правильно оценить который может только специалист, в нашем случае — генетик. Поэтому мы не показываем данные клинической генетики до консультации. Во время встречи врач-генетик подробно рассказывает, на что стоит обратить внимание с учетом вашей семейной истории и наличия симптомов. Это может помочь, например, для уточнения возраста начала скрининга определенных заболеваний или при планировании семьи.

Питание

28 Отчетов
По генетическим тестам и даже по полному геному подобрать оптимальное питание и составить рацион нельзя. Продуктов, их способов приготовления и блюд настолько много, что исследователям трудно найти какие-либо корреляции с вариантами генов. При этом некоторые данные все же есть.

По определенным вариантам генов мы можем узнать, есть ли у человека предрасположенность к непереносимости лактозы или глютена, быстро или медленно организм справляется с алкоголем или кофеином, а также оценить предрасположенность к определенному уровню железа, кальция, омега-3 и 6 жирных кислот. По этим данным человек может решить, какие продукты ему стоит убрать или наоборот добавить в рацион.

Спорт

16 Отчетов
Определить вид спорта, который вам больше подходит генетически — так же сложно, как и подобрать питание. Видов физической нагрузки сейчас множество, и понятие спорт с каждым годом расширяется. Так скейтбординг и серфинг добавили в программу олимпийских видов спорта. Видов физической нагрузки слишком много, чтобы это в большей степени было обусловлено генетикой. Поэтому не верьте генетическим тестам, которые обещают найти наиболее подходящий вам вид спорта. Выбирайте тот вид спорта, который просто нравится.

Научные сообщества генетиков обеспокоены, что родители делают генетические тесты детям, чтобы узнать, какой вид спорта им больше подходит. В таком случае ребенка могут отправить в группу, которая ему не нравится, но подходит по результатам теста. Если человек хочет добиться выдающихся результатов в спорте, то успех в большей степени будет зависеть от его амбиций, силы воли и характера. Варианты генов тут играют меньшую роль.

С помощью генетического теста можно узнать, как гены влияют на риски спортивных травм, количество свободного инсулиноподобного фактора роста-1, уровень эритроцитов, эритропоэтина, а также на особенности обмена аминокислот — валина, лейцина и L-карнитина. К результатам «Полного генома» мы добавили также риск невралгии седалищного нерва, уровень IGFBP‑3, объем выдоха и другие.

Другие признаки

15 Отчетов
В этом разделе мы собрали признаки, которые относятся к особенностям организма: черты внешности, восприятие света, чувствительность к травам и запахам. В нашем тесте вы не найдете признаков, которые связаны с эмоциями, поведением или характером. В основном эти черты зависят от особенностей воспитания, окружения и привычек, и в меньшей степени на них влияют варианты генов. К тому же многие личные качества можно поменять или выработать во взрослом возрасте.

Происхождение

3 Отчета
Генетики не используют понятия этнической или национальной принадлежности. В большей степени они обусловлены культурными различиями, а не разными вариантами генов. Вместо этого генетики используют понятие популяция — группа людей, которая долгое время живет на одной территории. Сегодня доступны геномные данные определенных популяций, из них ученые выделили последовательности и варианты генов, характерные для каждой. Генетические исследования происхождения — это поиск таких вариантов в геноме и определение генетической схожести с известными популяциями в процентном соотношении.

Кроме популяционного состава по генетическому коду можно узнать свою гаплогруппу. Гаплогруппа — это группа людей с одинаковым вариантом гена, который случился у одного общего предка тысячи лет назад. Также по геному можно определить процент ДНК неандертальца. В геноме современного человека оказалось около 1–4 % ДНК неандертальцев. Сейчас известно только несколько признаков, которые зависят от наличия вариантов гена неандертальца, — рост волос на спине и уровень липопротеинов низкой плотности ЛПНП (плохой холестерин).

что значит секвенировать геном. Смотреть фото что значит секвенировать геном. Смотреть картинку что значит секвенировать геном. Картинка про что значит секвенировать геном. Фото что значит секвенировать геном
Сравнение Полного генома и генетического теста «Атлас»

Почему Полный геном?

Главный плюс Полного генома в том, что вы получаете всю информацию о своей ДНК. Когда появятся новые данные, мы просто добавим их в личный кабинет. С обычным генетическим тестом это работает не всегда, так как в нем исследуется около 660 000 вариантов — 0,1% всей ДНК. Для интерпретации новых признаков их может быть недостаточно.

Результаты теста помогут предпринять меры по профилактике заболеваний, планированию семьи, а врач сможет уточнить диагноз в будущем или уже сейчас. Тест доставят на дом и всё, что требуется от пользователя — собрать образец слюны и вызвать курьера для передачи пробирки в лабораторию.

Основа Полного генома «Атласа»: генетический анализ высокой точности (99,5%), контроль качества полученных данных, запатентованная система интерпретации данных, доступ к исходным данным, консультация генетика, а также отобранные научные статьи, которые доступны каждому пользователю. Всё это пользователь получает за 94 500 — самая низкая цена за подобные услуги в России. Тест уже можно купить на сайте Атласа.

Если вы умеете работать с большими данными, а особенно биоинформатическими, ваши сырые данные полного генома могут быть пластилином, с которым на досуге можно поиграть и узнать о себе больше. Например, можно отсеять варианты генов, которые изучают другие компании и загрузить в их базу интерпретации, узнать родственную связь с другим человеком, взять референсную ДНК шимпанзе или Неандертальца и сравнить насколько вы схожи.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *