Ученые Калифорнийского университета в Санта—Крусе вместе с консорциумом исследователей опубликовали проект первого пангенома человека — нового, пригодного для использования справочника по геномике, который объединяет генетический материал 47 индивидуумов из разных родословных, чтобы обеспечить более глубокое и точное понимание геномного разнообразия во всем мире.
Добавляя 119 миллионов оснований — «букв» в последовательностях ДНК — к существующему справочнику по геномике, пангеном обеспечивает представление генетического разнообразия человека, что было невозможно при использовании одного эталонного генома. Это высокоточный, более полный метод и значительно увеличивает вероятность обнаружения вариантов в геноме человека, как показано в подборке новаторских статей, опубликованных сегодня в журналах Nature, Genome Research, Nature Biotechnology и Nature Methods.
Пангеном был создан справочным консорциумом по пангеному человека (HPRC), который совместно возглавляют доцент кафедры биомолекулярной инженерии Калифорнийского университета Бенедикт Патен и доцент кафедры биомолекулярной инженерии Карен Мига, и теперь доступен для использования в assembly hub в UCSC Genome Browser. Более десятка исследователей и студентов Калифорнийского университета в Беркли участвуют в этом проекте, который продлится до 2024 года, когда исследователи планируют опубликовать окончательный пангеном с геномной информацией от 350 человек.
«Мы привносим больше разнообразия и справедливости в справочник, отбирая самых разных людей и включая их в эту структуру, которую может использовать каждый», — сказал Патен, который является старшим автором основной статьи marker. «Одного генома недостаточно, чтобы представлять всех — пангеном в конечном счете будет чем-то всеобъемлющим и репрезентативным».
Понимание геномной изменчивости
Геном каждого человека незначительно отличается — в среднем примерно на 0,4% по сравнению со следующим человеком, — и понимание этих различий может дать представление об их здоровье, помочь диагностировать заболевание, прогнозировать результаты лечения и направлять лечение. Использование справочника по пангеному улучшит способность ученых обнаруживать и понимать вариации в будущих исследованиях.
Обычно, когда ученые и клиницисты изучают геном индивидуума в поисках вариаций, они сравнивают ДНК этого индивидуума со стандартной эталонной днк, чтобы определить, где имеются различия в одной или нескольких парах оснований. До сих пор эталонный геном в основном был представлен одной последовательностью для каждой человеческой хромосомы, в основном полученной от одного индивидуума. Но этому справочнику почти 20 лет, и он принципиально ограничен в том смысле, что не может отражать богатство генетических вариаций, присутствующих в человеческой популяции. Это приводит к возникновению проблемы, называемой смещением ссылок при анализе генома.
Напротив, новый пангеном является эталонным, который объединяет геномы 47 особей из различных родословных. Пангеном выглядит как линейная привязка в областях, где последовательности имеют одинаковые основания, и расширяется, чтобы показать области, где есть различия. Он представляет множество различных версий последовательности генома человека одновременно и дает ученым более точную точку сравнения вариаций, которые присутствуют в одних популяциях, но отсутствуют в других.
«Один геном, вероятно, не может представлять все богатые вариации, которые, как мы знаем, можно наблюдать и изучать по всему миру», — сказал Мига, директор производственного центра HPRC в Калифорнийском университете. «Цель № 1 справочника по пангеному человека состоит в том, чтобы попытаться расширить представленность справочного ресурса, чтобы он был более инклюзивным и справедливым для изучения человеческого вида, как коллекции ссылок, а не только одной».
Геномные вариации могут быть небольшими, состоящими из различий всего в одном или нескольких основаниях ДНК, или это могут быть большие структурные варианты, классифицируемые как варианты, содержащие 50 пар оснований или больше. Эти более крупные структурные варианты могут иметь важные последствия для здоровья. До сих пор исследователям не удавалось идентифицировать более 70% структурных вариантов, существующих в геномах человека, из-за ограниченности технологий и предвзятости использования одной эталонной последовательности.
Из 119 миллионов новых оснований, добавленных к справочнику с помощью пангенома, примерно 90 миллионов из них являются результатом структурных изменений. Структурные варианты сложны и могут представлять собой инверсии последовательностей, вставки, делеции или тандемные повторы — сегмент из двух или более оснований, повторяющийся множество раз. Эти новые базы помогут исследователям изучить области генома, для которых ранее не было ссылок, и потенциально смогут связать структурные варианты с заболеванием в будущих исследованиях.
«Теперь мы можем сопоставить больше структурных вариантов, таким образом, мы находим особенности и области в геноме, которых раньше просто не было», — сказал Мига. «Это захватывающе, потому что позволяет нам взглянуть на регуляцию генов уникальным образом, который мы не могли изучать раньше, потому что эти области, вероятно, были бы неправильно нанесены на карту или просто полностью проигнорированы».
Использование pan genome reference для геномного анализа увеличивает обнаружение структурных вариантов на 104% по сравнению с обнаружением с использованием стандартного эталона. Ссылка на пангеном также повышает точность вызова небольших вариантов, длиной всего в несколько оснований, примерно на 34% из-за увеличения объема данных, присутствующих в пангеноме.
Каждый человек несет в себе парный набор хромосом — один набор унаследован от матери, а другой — от отца. Отдельные геномы, представленные в справочнике pangenome, содержат информацию с разрешением по гаплотипу, что означает, что он может уверенно различать два родительских набора хромосом — крупный научный подвиг. Обладание этой информацией поможет ученым лучше понять, как наследуются различные гены и заболевания.
Это также означает, что текущая ссылка на самом деле включает 94 различных последовательности генома, с целью довести их до 700 к 2024 году.
Создание пангенома
Создание пангенома стало возможным благодаря разработке передовых вычислительных методов для объединения множества последовательностей генома в одну пригодную для использования ссылку в структуре, называемой графом пангенома. Патен и исследователи из лаборатории вычислительной геномики Калифорнийского университета помогли возглавить усилия HPRC по разработке алгоритмических методов, необходимых для создания этой графовой структуры пангенома.
Благодаря методам, используемым в этом проекте, все геномы в справочнике pangenome отличаются чрезвычайно высоким качеством и точностью, охватывая более 99% каждого человеческого генома с точностью более 99%.
«В линейном эталоне у нас была только одна последовательность, одно представление каждого гена», — сказал Мобин Асри, кандидат наук по биоинформатике в Калифорнийском университете и соавтор основной статьи. «Но мы знаем, что наши гены имеют разные вариации в человеческой популяции. Используя граф пангенома, мы хотим объединить все эти вариации в единую структуру — и график является естественным способом сделать это».
Проект HPRC в значительной степени опирается на технологию секвенирования с длительным и сверхдлинным считыванием для считывания ДНК из биологических образцов. Благодаря недавним достижениям эти методы теперь могут декодировать от тысяч до миллионов пар оснований генома одновременно. Длинные фрагменты считываемой ДНК затем собираются с помощью специализированных алгоритмов в более полные геномные последовательности. В идеале каждая собранная последовательность должна представлять последовательность одной хромосомы.
Длинные считывания содержат ошибки примерно в 1% случаев, а текущие алгоритмы сборки несовершенны, что может привести к ошибкам в собранных последовательностях в некоторых местах. Чтобы проверить и исправить эти ошибки, отдельные геномы, которые были секвенированы и собраны, перемещаются с помощью множества инструментов, включая конвейер надежности, разработанный Asri. После обработки с помощью этих инструментов исследователи могут гарантировать, что сборки являются точными и полными.
После прохождения через конвейер Asri различные геномы компилируются с помощью сложных алгоритмических методов в графовую структуру пангенома. Визуально графический геном позволяет исследователям рассматривать различия в различных эталонных последовательностях как расходящиеся области в других общих путях.
Создание доступного ресурса
Все первые 47 диплоидных геномов в проекте пангенома были получены от людей, участвовавших в проекте «1000 геномов» (1000G), влиятельном проекте, в рамках которого был создан каталог общих генетических вариаций человека из образцов с открытым согласием, и который был завершен в 2015 году. Статус открытого согласия этих образцов позволяет любому исследователю получить доступ к ресурсу без барьеров конфиденциальности, которые обычно сопровождают исследования генома, с целью сделать пангеном доступным как можно большему числу людей.
«Стать общим ресурсом — это то, что имеет фундаментальное значение для успеха справочника по пангеному человека», — сказал Мига. «Он должен обладать способностью быть доступным и открытым по всему миру для всех исследователей, чтобы мы могли использовать его в качестве основы».
Команда HPRC сосредоточена на информационно-пропагандистской работе, чтобы гарантировать, что pangenome является полезным ресурсом, который будет использоваться в клиниках по всему миру. Это означает облегчение аннотаций, обратной связи и вводных данных от исследователей, проводящих исследования с использованием справочника pangenome.
«Проект pangenome является важным доказательством принципа, который, как мы надеемся, повлияет на многих людей и заставит их задуматься о pangenome и о том, как это может повлиять на их работу», — сказал Патен. «Заглядывая вперед, мы видим большое взаимодействие с другими группами — требуется много разных людей, чтобы создать что-то, что станет большим ресурсом сообщества».
Наряду с акцентом на доступность, в проекте HPRC есть специальная команда по этике, которая занимается социальными и правовыми последствиями этого проекта. Они работают над тем, чтобы предвидеть сложные проблемы и помогать направлять информированное согласие, определять приоритетность изучения различных образцов, изучать возможные нормативные вопросы, связанные с клиническим внедрением, и работать с международными сообществами и коренными народами над включением их геномных последовательностей в эти более широкие усилия.
Продолжение наследия и будущая работа
Человеческий пангеном — это продолжение многолетних усилий ученых Калифорнийского университета в Санта-Крусе по пониманию биологического кода, лежащего в основе человеческой жизни.
В 2000 году Джим Кент, в то время аспирант Калифорнийского университета, а ныне научный сотрудник Института геномики и директор UCSC Genome Browser, написал код, который собрал первый рабочий проект генома человека. Ученые Калифорнийского университета опубликовали его в открытом доступе для всех, кто хотел им воспользоваться. С тех пор UCSC находится на переднем крае исследований в области геномики.
В апреле 2022 года Карен Мига из UCSC совместно с консорциумом «Теломера к теломере» провела первое полное секвенирование генома человека, заполнив недостающие сложные области, которые долгое время ускользали от внимания ученых.
«С 2000 года у нас была серия все более точных представлений одного генома», — сказал Дэвид Хаусслер, научный директор Института геномики Калифорнийского университета, который возглавлял команду Калифорнийского университета в оригинальном проекте «Геном человека» и консультирует по проекту «Пангеном». «Но независимо от того, насколько точно вы представляете один геном, это не будет представлять все человечество. Сейчас наступил поворотный момент: больше не геномика одного стандартного человеческого генома, а геномика для всех».
Исследователи добиваются прогресса в достижении цели создания полного пангенома к 2024 году. Команда находится в процессе набора новых сотрудников, которые будут представлять некоторые группы населения, не включенные в проект «1000 геномов», особенно людей ближневосточного и африканского происхождения. Miga, как директор Центра обработки данных UCSC, будет возглавлять эти усилия в дальнейшем.
В дополнение к завершению окончательного описания пангенома, исследователи работают над созданием международного проекта по пангеному человека, который позволил бы установить партнерские отношения с исследователями по всему миру. Эти партнерские отношения будут включать двусторонний обмен навыками и знаниями, направленный на то, чтобы передать навыки и технологии, необходимые для создания высококачественных эталонных геномов, в руки исследователей по всему миру, чтобы они могли проводить свои собственные исследования.